Poate fi vreodată prea multe date în date mari?

Conţinut

Î:

A:

Răspunsul la întrebare este un DA răsunător. Pot fi absolut prea multe date într-un proiect de date mari.

Există numeroase modalități prin care acest lucru se poate întâmpla și diverse motive pentru care profesioniștii trebuie să limiteze și să curețe datele în orice fel de moduri pentru a obține rezultatele corecte. (Citiți 10 Mituri mari despre date mari.)

În general, experții vorbesc despre diferențierea „semnalului” de „zgomotul” dintr-un model. Cu alte cuvinte, într-o mare de date mari, datele relevante din perspectiva devin dificil de vizat. În unele cazuri, sunteți în căutarea unui ac într-un căptuș de fân.

De exemplu, să presupunem că o companie încearcă să utilizeze date mari pentru a genera informații specifice pe un segment al unei baze de clienți și achizițiile acestora pe un anumit interval de timp. (Citiți Ce face datele mari?)

Preluarea unei cantități enorme de active de date poate duce la introducerea de date aleatorii care nu sunt relevante, sau poate chiar produce o prejudecată care frânează datele într-o direcție sau alta.

De asemenea, încetinește procesul în mod dramatic, deoarece sistemele de calcul trebuie să se lupte cu seturi de date mai mari și mai mari.

În atât de multe tipuri diferite de proiecte, este extrem de important pentru inginerii de date să curate datele la seturi de date restrânse și specifice - în cazul de mai sus, acestea ar fi studiate numai pentru acel segment de clienți, doar datele pentru acel moment cadru care este studiat și o abordare care elimină identificatori suplimentari sau informații de fundal care pot confunda lucruri sau încetini sistemele. (Rolul ReadJob: Data Engineer.)

Pentru mai multe, să ne uităm la modul în care funcționează acest lucru în frontiera învățării automate. (Citiți învățarea mașinii 101.)

Experții în învățarea mașinilor vorbesc despre ceva numit „overfitting”, unde un model excesiv de complex duce la rezultate mai puțin eficiente atunci când programul de învățare a mașinilor este dezvăluit pe noile date de producție.

Suprapunerea se întâmplă atunci când un set complex de puncte de date se potrivesc prea mult cu un set de antrenament inițial și nu permit programului să se adapteze cu ușurință la datele noi.

Acum, din punct de vedere tehnic, supra-montarea este cauzată nu de existența prea multor probe de date, ci de încoronarea prea multor puncte de date. Dar puteți susține că faptul că există prea multe date poate fi un factor care contribuie la acest tip de problemă. Abordarea blestemului dimensionalității implică unele din aceleași tehnici care au fost făcute în proiectele de date mari anterioare, în timp ce profesioniștii au încercat să identifice ceea ce alimentau sistemele IT.

Concluzia este că datele mari pot fi foarte utile pentru companii sau pot deveni o provocare majoră. Un aspect al acestui lucru este dacă compania are datele corecte în joc. Experții știu că nu este recomandabil să aruncați pur și simplu toate activele de date într-un buncăr și să prezentați informații în acest fel - în noile sisteme de date sofisticate din cloud și sofisticate, există un efort de control și gestionare și curare a datelor pentru a obține mai exacte și utilizarea eficientă din activele de date.