Hadoop operațional în arhitectura de date de generație următoare

Conţinut

Ce este arhitectura de date de generație următoare?
Așteptări de la Hadoop în arhitectura de generație următoare
Ce valori se poate adăuga Hadoop la arhitectura de date de generație următoare?
Performanță îmbunătățită ca arhitectură de date pentru întreprinderi
Diferența dintre Hadoop și alte tehnologii
Concluzie

Sursa: Romeo1232 / Dreamstime.com

La pachet:

Hadoop va fi un jucător cheie în arhitectura de date de generație următoare datorită capacității sale de a gestiona cantități vaste de date.

Utilitatea lui Hadoop începe să depășească prelucrarea datelor și analizele mari, pe măsură ce industria cere să solicite mai mult. Hadoop satisface constant cerințele diverse legate de arhitectura de date a întreprinderii, păstrându-și punctele forte. Lista a ceea ce Hadoop poate face și face în prezent este destul de lungă. Hadoop este acum capabil să proceseze volume uriașe de sarcini de muncă tranzacționale, o sarcină care era anterior așteptată de tehnologiile tradiționale. Pe viitor, există multe posibilități pentru Hadoop în viitor. De exemplu, sistemele de tranzacții bazate pe SQL pot utiliza un motor SQL Hadoop, iar Hadoop va adăuga, de asemenea, o mulțime de funcții RDBMS. Puteți spune că Hadoop devine un hibrid de prelucrare a datelor și capabilități analitice cu capacități de arhitectură a întreprinderii.

Ce este arhitectura de date de generație următoare?

Cu alte cuvinte, arhitectura de date de generație următoare este o formă evoluată a arhitecturii de date. Totul, inclusiv modelele de date, politicile, regulile și standardele de date care guvernează modul în care datele sunt colectate, stocate, aranjate, analizate sau procesate, integrate, utilizate și distribuite, a evoluat sub arhitectura de date de generație următoare.

Principala diferență între arhitectura de date anterioară și arhitectura de date de generație următoare este capacitatea acesteia din urmă de a colecta, stoca și prelucra volume enorme de date, cunoscute și sub numele de date mari, în timp real. Arhitectura îndeplinește toate aceste sarcini complexe, fără a face compromisuri cu standardele de confidențialitate, securitate și guvernanța datelor.

Arhitectura de date de generație următoare se confruntă cu multe provocări. Nu este ușor să gestionați volumul, viteza și varietatea datelor mari. Adăugați la aceasta cerințele de optimizare a volumului de muncă al sistemului, îmbunătățirea performanțelor, viteza și precizia și reducerea costurilor. Inutil să spun, arhitectura de date precedentă nu a trebuit să gestioneze astfel de solicitări.

Așadar, CIO și arhitecții de informații vor să găsească o soluție care să îi ajute să își atingă obiectivele. Hadoop operațional a fost în centrul atenției de ceva timp în această secțiune. Secțiunile următoare vor discuta modul în care Hadoop operațional poate rezolva problemele.

Așteptări de la Hadoop în arhitectura de generație următoare

Companiile se află sub presiune crescândă pentru a oferi rezultate mai bune, iar efectele se limitează la așteptările formulate de tehnologii. Deci, Hadoop nu mai este de așteptat să proceseze doar datele. CIO-urile și CTO-urile vor mai mult de la Hadoop. Mai jos este o listă de așteptări de la Hadoop. De fapt, Hadoop și-a îndeplinit deja câteva dintre aceste așteptări.

Hadoop este de așteptat să funcționeze cu sisteme de tranzacții bazate pe SQL și care au capacități de creare, citire, actualizare și ștergere. Sistemele de tranzacții vor folosi motorul SQL. Sistemele vor avea, de asemenea, respectarea deplină a interfeței cu sistemul de operare portabil (POSIX) și capacitatea de a prelucra volume de tranzacții mari.

Hadoop este de așteptat să sprijine funcții precum backup, toleranță la erori, recuperare și recuperare în caz de catastrofe. Pentru ca Hadoop să evolueze într-un sistem cu capabilități RDBMS, trebuie să fie compatibil cu instrumentele IT existente.

Hadoop lucrează deja la îndeplinirea așteptărilor, așa cum rezultă din unele evoluții. Hadoop poate oferi analize în timp real și răspunsuri rapide pe baza suportului de gestionare a resurselor oferit de YARN. YARN este un sistem de operare pe scară largă și distribuit pentru aplicații de date mari, pe lângă faptul că este un manager de resurse. Sunt cunoscute și alte evoluții, cum ar fi Apache Storm, arhitecturi distribuite în memorie, cum ar fi Apache Spark, Apache Hive, Drill și MapR-FS (o înlocuire HDFS de înaltă performanță), pentru a oferi diverse capacități complete ale bazei de date, cum ar fi backup, recuperare în caz de dezastru, toleranță la erori etc. (Pentru mai multe despre YARN, consultați Care sunt avantajele cadrului Hadoop 2.0 (YARN)?)

Ce valori se poate adăuga Hadoop la arhitectura de date de generație următoare?

Valorile operaționale Hadoop se pot adăuga la arhitectura de date de generație următoare pot fi privite din două perspective: una, dacă îndeplinește așteptările descrise mai sus, și două, dacă face ceva suplimentar. Mai jos sunt prezentate valorile importante pe care le poate aduce Hadoop operațional.

Hadoop este acum capabil să ofere mai mult scalabilitate și gestionabilitate a datelor din platforma sa prin intermediul HDFS. Și sistemul de operare de date a fost activat prin intermediul aplicațiilor YARN de la Hadoop. Această strategie reprezintă o schimbare a arhitecturii datelor la nivel fundamental. Acum, Hadoop poate stoca diverse tipuri de date, cum ar fi baze de date orientate către tranzacții, baze de date grafice și baze de date de documente, iar aceste date pot fi accesate prin aplicațiile YARN. Nu este necesară duplicarea sau mutarea datelor în alte locații.

Performanță îmbunătățită ca arhitectură de date pentru întreprinderi

Hadoop operațional este pe cale de a deveni sistemul de bază al arhitecturii de date a întreprinderii. Pe măsură ce Hadoop intră mai mult în arhitectura de date a întreprinderii, silozurile de date vor fi eliminate odată cu eliminarea liniilor dintre ele. Va fi o îmbunătățire rapidă în aproape toate aspectele. Îmbunătățirile vor avea loc sub formate de fișiere mai eficiente, performanțe mai bune ale motorului SQL, sisteme de fișiere îmbunătățite și robustete care vor satisface nevoile aplicațiilor enterprise.

Diferența dintre Hadoop și alte tehnologii

În trecut, principala diferență între tehnologiile Hadoop și companiile de date a fost capacitatea de procesare, raportare și analiză a datelor Hadoop. Acum, pe măsură ce Hadoop operațional devine din ce în ce mai mult o parte a arhitecturii de date a întreprinderii, diferența dintre entități este tot mai estompată. Deci, Hadoop operațional se dezvoltă ca o alternativă superioară la arhitectura de date a întreprinderii existente.

Concluzie

Având în vedere așteptările și progresul, Hadoop va fi în centrul atenției industriei destul de mult timp. Dar are sens să nu vă concentrați prea mult pe Hadoop și să ignorați pur și simplu alte tehnologii. Acest lucru se datorează faptului că alte tehnologii vor progresa pe aceiași parametri și ar putea chiar să depășească Hadoop. Nu este niciodată bine să aveți un monopol pe piață. Este bine că producătorii de alte tehnologii decât Hadoop ar putea fi motivați să furnizeze produse mai bune și chiar plug-in-uri care ajută Hadoop să-și îmbunătățească performanțele.