Cataloage de date și maturizarea pieței de învățare a mașinilor

Conţinut

Imperativul Infonomiei
Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața
Ce pot face cataloagele de date pentru companii
Adăugarea în învățarea mașinii
Cum să alegi

Sursa: Nmedia / Dreamstime.com

La pachet:

Piața MLDC este în creștere, iar întreprinderile care doresc să utilizeze eficient datele mari cu învățarea automată ar trebui să fie conștiente de numele de top din domeniu și clasamentele individuale ale acestora.

Aceasta este vârsta datelor mari. Suntem inundați de informații, iar companiile consideră că este o provocare să gestioneze și să extragă valoarea din ea.

Fluxul de astăzi al datelor mari presupune nu doar volumul, varietatea și viteza, ci și complexitatea. După cum a fost identificat de SAS în Istoria datelor mari și în Considerațiile curente, acesta este un factor al fluxurilor „din mai multe surse, ceea ce face dificilă conectarea, potrivirea, curățarea și transformarea datelor în sisteme”. (Doriți să aflați mai multe despre datele mari? Consultați (mari) Datele mari Viitorul viitor.)

Găsirea informațiilor valoroase nu este o problemă de a acumula cât mai multe date, ci de a găsi datele corecte. Este imposibil să lucrezi prin toate acestea cu procese manuale. Acesta este motivul pentru care tot mai multe companii „apelează la cataloagele de date pentru a democratiza accesul la date, pentru a permite cunoștințelor de date tribale să curateze informațiile, să aplice politicile de date și să activeze rapid toate datele pentru valoarea afacerii”.

Aici intră în imagine cataloagele de date (cunoscute și sub denumirea de cataloage de informații). Așa cum s-a definit aici, ele împuternicesc „utilizatorii să exploreze sursele de date necesare și să înțeleagă sursele de date explorate și, în același timp, să ajute organizațiile să obțină mai multă valoare din investițiile lor actuale”. Unul dintre modurile în care face acest lucru este prin a permite accesul mult mai mare la date, printre diferite tipuri de utilizatori care pot folosi sau contribui la acestea.

Imperativul Infonomiei

Observând cererea crescută dramatic de cataloage de date la sfârșitul anului 2017, Gartner le-a numit „noul negru”. Ele deveneau recunoscute ca o soluție rapidă și economică "pentru a inventaria și a clasifica organizațiile din ce în ce mai multe resurse de date distribuite și dezorganizate și maparea lanțurilor lor de furnizare de informații". Necesitatea acestui lucru a apărut din cauza creșterii „infonomicilor”, care necesită aplicarea aceleiași meticulozități la informațiile de urmărire ca și la gestionarea altor active de afaceri. (Pentru mai multe despre lanțurile de aprovizionare, consultați Modul de învățare a mașinii poate îmbunătăți eficiența lanțului de aprovizionare.)

Gartners iau cu The Forrester Wave ™: Catalogul datelor de învățare pe mașină, T2 2018. Peste jumătate dintre sondajii participanți la raportul respectiv au spus că intenționează să își construiască implementarea catalogului de date. Probabil au fost motivați în mare măsură de faptul că fiecare avea cel puțin șapte lacuri de date în organizația lor. După cum explică Gartner asupra cataloagelor de date, cataloagele de date sunt deosebit de utile pentru extragerea „con, sensul și valoarea datelor”, care este de obicei lăsată într-o formă neclasificată într-un lac de date.

Forrester raportează că mai mult de o treime din factorii de decizie de date și analitice au avut de-a face cu 1.000TB sau mai multe date în 2017, o sumă raportată cu doar între 10 și 14 la sută anul precedent. Gestionarea datelor la această scară este o provocare din ce în ce mai mare, sau mai precis, două provocări:

„1) fuzionarea proceselor de afaceri existente cu sursele de date pentru a le analiza și implementa informații și 2) furnizarea, colectarea, gestionarea și guvernarea datelor pe măsură ce acestea cresc."

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Ce pot face cataloagele de date pentru companii

Gartner identifică modalități specifice prin care cataloagele de date pot îmbunătăți fluxul de informații și productivitate al organizațiilor:

Colectarea și comunicarea inventarului de informații actualizate care sunt disponibile organizației.
Crearea unui glosar comun al termenilor de afaceri care definește interpretarea și semnificația semantică a datelor organizațiilor, oferind astfel mijloacele pentru medierea și rezolvarea inconsistențelor definitorii.
Permiterea unui mediu de colaborare dinamic și agil pentru a permite colegilor de afaceri și IT să comenteze, să documenteze și să partajeze date.
Asigurarea transparenței utilizării datelor cu linia și analiza impactului.
Monitorizarea, auditul și urmărirea datelor în sprijinul proceselor de guvernare a informațiilor.
Captarea metadatelor pentru a îmbunătăți analiza internă a utilizării și reutilizării datelor, optimizarea interogării și certificarea datelor.
Conualizarea informațiilor în cadrul întreprinderii sale prin captarea, comunicarea și analiza ce date există, de unde provin, în ce conținut se utilizează, de ce este nevoie, cum curge între procese și sisteme, cine este responsabil pentru aceasta, ce înseamnă și ce valoare are.

Obținerea datelor identificate și accesibile în mod corespunzător pentru persoanele cheie din organizație este importantă, spune raportul Gartner, nu doar pentru a găsi modalitatea „de a monetiza activele de date pentru rezultatele afacerilor digitale”, ci pentru a respecta reglementările, indiferent dacă sunt industrie. specifice precum Legea privind portabilitatea și responsabilitatea asigurărilor de sănătate (HIPAA) sau de natură mai generală precum Regulamentul general privind protecția datelor (GDPR).

Adăugarea în învățarea mașinii

Dar nimic nu este fără dezavantajele sale. Pentru cataloagele de date, problema a fost procesul lent și obositor implicat în construirea manuală a acestora cu toate metadatele care trebuie puse în aplicare. Aici intră componenta de învățare a mașinii.

Cataloagele de date pe care Forrester le-a evaluat se numesc MLDC-uri, deoarece valorifică puterea învățării automate, una dintre componentele AI. După cum a explicat un blog Podium Data, aceasta face posibilă „construirea unui depozit persistent de metadate și apoi aplicarea ML / AI pentru a elimina și expune informații potențial utile cu privire la activele de bază ale datelor.

Cum să alegi

Pentru a ajuta organizațiile să evalueze ce întreprinderi ar trebui să selecteze, Forrester a aplicat 29 de puncte de evaluare la primele 12 MLDC-uri. Acesta a identificat liderii de pe această piață ca: IBM, Relito, Unifi Software, Alation și Collibra. Performanții puternici pe care i-a găsit sunt Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics și Cloudera. Hortonworks se află singur în rangul de „concurent”.

Cu toate acestea, nu ar trebui să trecem doar de clasamentul general. Raportul descompune punctele forte și punctele slabe ale fiecăruia. În consecință, dacă o anumită caracteristică, cum ar fi cercetarea și dezvoltarea, este de cea mai mare importanță pentru o organizație, poate considera Hortonworks ca fiind egala cu IBM și Colilbra pentru acel aspect, deoarece cei trei au cel mai mare punctaj de cinci pentru acea calitate, care a fost două puncte mai bune decât Alation și Coloudera și patru puncte mai bune decât Cambridge Semantics.

În consecință, raportul Forrester îi sfătuiește pe cei care folosesc raportul său ca ghid pentru a nu-și asuma compania de top care este cea mai bună alegere pentru toată lumea. Aceștia ar trebui să acorde o atenție deosebită defalcării evaluării pentru a găsi ce îndeplinește cerințele lor particulare.