Cât de structurată sunt datele dvs.? Examinarea datelor structurate, nestructurate și semi-structurate

Autor: Roger Morrison
Data Creației: 25 Septembrie 2021
Data Actualizării: 21 Iunie 2024
Anonim
Cât de structurată sunt datele dvs.? Examinarea datelor structurate, nestructurate și semi-structurate - Tehnologie
Cât de structurată sunt datele dvs.? Examinarea datelor structurate, nestructurate și semi-structurate - Tehnologie

Conţinut



Sursa: monsitj / iStockphoto

La pachet:

Aflați mai multe despre date structurate, nestructurate și semi-structurate.

Istoric, analiștii de date au fost capabili să decripteze și să extragă informații dintr-un singur tip de date: date structurate. Acest tip de date a fost ușor căutabil datorită modelelor sale clare, dar a reprezentat un procent minor din totalul de date disponibile.

Datele nestructurate includ video, audio, s, i date provenite și de pe social media și dispozitive mobile. A fost, cu mâna în jos, cea mai mare rezervă de informații brute disponibile, dar nimeni nu a reușit să atingă în mod fiabil această resursă.

Cu toate acestea, lucrurile s-au schimbat, deoarece disponibilitatea crescută a capacității de stocare și procesare superioară a dat naștere unei analize de date nestructurate - o nouă tehnologie și, prin urmare, imatură. O mai bună informație de afaceri profită din plin de această oportunitate și se fac investiții substanțiale pentru a acumula analize de date structurate și nestructurate pentru a accesa această minăminte de aur aparent nesfârșită de informații.


Permiteți să aruncăm o privire la aceste două formate de date pentru a înțelege diferențele lor și ce înseamnă viitorul pentru toți analiștii de date.

Ce este datele structurate?

Datele structurate sunt informații generate de om sau de mașini și extrem de organizate, care pot fi stocate cu ușurință în structurile de baze de date rând, cunoscute sub numele de baze de date relaționale (RDB). Este orice este existent într-un format care poate fi capturat, stocat și organizat cu ușurință într-o structură RDB pentru a fi ulterior analizat. (Pentru a afla mai multe despre baze de date, consultați Introducerea noastră în baze de date.)

Exemple includ coduri poștale, numere de telefon și demografii ale utilizatorilor, cum ar fi vârsta sau sexul. Datele găsite în aceste baze de date pot fi interogate cu funcții Structurate de interogare (SQL) sau funcții VLOOKUP din foile de calcul Excel. Algoritmii pot fi, de asemenea, făcuți căutarea rapidă a datelor găsite în diferitele câmpuri folosind indexurile lor sau datele numerice și alfabetice. Cu toate acestea, toate datele sunt definite strict în termeni de tip și nume de câmp, iar capacitatea de a stoca, interoga și analiza acestea este astfel limitată într-o oarecare măsură.


Aplicațiile obișnuite care folosesc date structurate includ software de management al spitalului, aplicații de management al relațiilor cu clienții (CRM) și sisteme de rezervare a companiilor aeriene. Datorită organizării sale clare și a accesibilității ușoare, datele structurate sunt utile și eficiente atunci când avem de-a face cu volume mari de informații. Cu toate acestea, atunci când găurim pentru uleiul negru ascuns în cantitatea neîntreruptă de date produse în fiecare zi de umanitate, căutarea de date structurate nu înseamnă altceva decât zgârierea suprafeței.

Ce este datele nestructurate?

Marea majoritate a datelor găsite într-o organizație este nestructurată, iar unii o estimează ca până la 80 la sută din totalul datelor disponibile în prezent. Prin definiție, datele nestructurate sunt tot ceea ce nu are o structură internă identificabilă. Cu toate acestea, unele tipuri de date se încadrează în această categorie are o anumită formă de vagă structură internă, totuși nu se conformează unei baze de date sau a unei foi de calcul.

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de software care poate schimba viața fără a vă distruge viața


Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Majoritatea datelor de afaceri sunt nestructurate, variind de la interacțiuni cu serviciul clienți, fișiere, jurnale web, videoclipuri și alt conținut multimedia, automatizări de vânzări, postări de social media. Nu este nevoie să explici cât de valoroase ar putea fi aceste date dacă ar putea fi minate, organizate și analizate.

Majoritatea datelor nestructurate sunt generate de oameni și sunt astfel făcute să fie înțelese de alți oameni. Aceasta înseamnă că inteligența informatică neaterială nu înțelege acest tip de informații, deoarece este prea îndepărtată de liniaritatea limbajului mașinii și a bazelor de date structurate.

Se încadrează între: date semi-structurate

Datele semi-structurate sunt un al treilea tip de date care reprezintă o bucată mult mai mică din întreaga plăcintă (5-10 la sută). Prinsă literalmente între ambele lumi, datele semi-structurate conțin etichete semantice interne și marcaje care identifică elemente separate, dar îi lipsește structura necesară pentru a se încadra într-o bază de date relațională.

De exemplu, s-ar putea părea ca date structurate, deoarece acestea ar putea fi clasificate după data, dimensiunea fișierului sau ora. Cu toate acestea, acestea nu sunt, deoarece informațiile cele mai valoroase sunt cele găsite în ele, mai degrabă decât etichetele sale relativ simple. Nu poate fi aranjat cu adevărat după conținut și subiect, deoarece oamenii nu vorbesc în tipare atât de stricte pentru a permite unei mașini să le înțeleagă fără echivoc. Alte exemple de date semi-structurate includ baze de date NoSQL, JSON standard deschis și limbajul XML.

Datele semi-structurate sunt de obicei solicitate și catalogate pentru analiză prin utilizarea analizei de metadate. De exemplu, o scanare cu raze X constă dintr-un număr uriaș de pixeli care formează imaginea - care sunt date în mod inerent structurate care nu pot fi accesate. Cu toate acestea, fișierul de scanare va include în continuare o porțiune de metadate care oferă informații despre acesta, cum ar fi adnotări și ID-ul utilizatorului.

Datele nestructurate pot fi transformate în date structurate?

Provocarea fundamentală cu care trebuie să se confrunte fiecare analist de date este de a organiza informațiile disponibile într-un mod corect, ordonat, astfel încât acestea să poată fi accesate și înțelese. Instrumentele de extragere a datelor nu sunt de obicei echipate pentru a analiza informațiile care, prin definiție, sunt foarte asemănătoare cu limbajul uman, ceea ce înseamnă că numai un alt om îl poate colecta și clasifica.

Cu toate acestea, volumul pur de date nestructurate face orice încercare de stocare sau organizare a acestora extrem de laborioasă și costisitoare. Grupul de informații provenite de la un motor de căutare bazat pe web este atât de masiv încât majoritatea elementelor necesită o investiție uriașă în ceea ce privește munca și resursele doar pentru a le extrage pe cele mai de bază. Chiar și cele mai eficiente tehnici de extragere a datelor încă lipsesc o cantitate substanțială de informații găsite pe web și, chiar mai rău, în interiorul web-ului profund.

Dar tehnicile există. Și sunt dezvoltate la o viteză uimitoare. De exemplu, metadatele pot fi utilizate pentru a conecta date structurate și nestructurate împreună. Informațiile colectate pot fi filtrate și indexate atât de utilizatori, cât și de algoritmi pentru a analiza doar datele relevante. Alte soluții includ „wrangling de date”, care este un proces prin care datele complexe sunt organizate progresiv pas cu pas, de către utilizatorii non-tehnici. (Pentru mai multe despre utilizatorii obișnuiți care gestionează date, consultați Cât de mari date pot fi de ajutor în Self-Service Analytics.)

La un moment dat, vom putea transforma în mod eficient aceste cantități de informații masiv neorganizate într-un format mai organizat și restructurat. Poate nu astăzi, poate nu mâine, dar în curând vom putea să atacăm cea mai mare boltă omenească care a văzut vreodată: date mari.