Cei mai importanți 10 termeni Hadoop pe care trebuie să-i cunoașteți și să-i înțelegeți

Autor: Eugene Taylor
Data Creației: 10 August 2021
Data Actualizării: 1 Iulie 2024
Anonim
Cei mai importanți 10 termeni Hadoop pe care trebuie să-i cunoașteți și să-i înțelegeți - Tehnologie
Cei mai importanți 10 termeni Hadoop pe care trebuie să-i cunoașteți și să-i înțelegeți - Tehnologie

Conţinut



Sursa: Trueffelpix / Dreamstime.com

La pachet:

Pentru a înțelege cu adevărat datele mari, trebuie să înțelegeți un pic despre Hadoop și limba din jurul său.

Datele mari, denumirea atrăgătoare pentru volumele masive de date structurate, nestructurate sau semi-structurate, este notoriu dificil de captat, stocat, gestionat, distribuit, analizat și vizualizat, cel puțin folosind baze de date și aplicații software tradiționale. Acesta este motivul pentru care tehnologiile de date mari au potențialul de a gestiona și procesa volumele masive de date în mod eficient și eficient. Și Apache Hadoop, care oferă cadrul și tehnologiile asociate pentru a prelucra seturi mari de date în grupuri de computere într-un mod distribuit. Așadar, pentru a înțelege cu adevărat datele mari, trebuie să înțelegeți un pic despre Hadoop. Aici uitați bine la termenii de top pe care îi veți auzi în ceea ce privește Hadoop - și ce înseamnă ei.


Dar mai întâi, o privire la cum funcționează Hadoop

Înainte de a intra în ecosistemul Hadoop, trebuie să înțelegeți clar două lucruri fundamentale. Primul este modul în care un fișier este stocat în Hadoop; al doilea este modul în care datele stocate sunt procesate. Toate tehnologiile legate de Hadoop funcționează în principal pe aceste două domenii și îl fac mai ușor de utilizat. (Obțineți elementele de bază despre cum funcționează Hadoop în modul în care Hadoop ajută la rezolvarea problemei de date mari.)

Acum, la termeni.

Hadoop comun

Cadrul Hadoop are module diferite pentru funcționalități diferite și aceste module pot interacționa unele cu altele din diferite motive. Hadoop Common poate fi definit ca o bibliotecă de utilități comune pentru a sprijini aceste module în ecosistemul Hadoop. Aceste utilități sunt în principal fișiere arhivate (JAR) bazate pe Java. Aceste utilități sunt utilizate în principal de programatori și dezvoltatori în timpul dezvoltării.


Sistemul de fișiere distribuit Hadoop (HDFS)

Sistemul de fișiere distribuit Hadoop (HDFS) este un sub-proiect al Apache Hadoop din cadrul Apache Software Foundation. Aceasta este coloana vertebrală a stocării în cadrul Hadoop. Este un sistem de fișiere distribuit, scalabil și tolerant la erori, care se întinde pe mai multe hardware de mărfuri cunoscute sub numele de clusterul Hadoop. Obiectivul HDFS este de a stoca un volum imens de date în mod fiabil, cu acces mare de transfer la datele aplicației. HDFS urmărește arhitectura master / slave, unde masterul este cunoscut ca NameNode, iar sclavii sunt cunoscuți ca DataNodes.

MapReduce

Hadoop MapReduce este, de asemenea, un sub-proiect al Apache Software Foundation. MapReduce este de fapt un cadru de software scris în Java. Obiectivul său principal este procesarea seturilor de date mari pe un mediu distribuit (format din hardware-ul mărfii) într-o manieră complet paralelă. Cadrul gestionează toate activitățile precum programarea, monitorizarea, executarea și reexecutarea lucrărilor (în cazul sarcinilor eșuate).

HBase

Apache HBase este cunoscut sub numele de baza de date Hadoop. Este un depozit de date de dimensiuni mari, distribuit și scalabil. Este, de asemenea, cunoscut ca un tip de bază de date NoSQL care nu este un sistem relațional de gestionare a bazelor de date. Aplicațiile HBase sunt, de asemenea, scrise în Java, construite pe Hadoop și rulate pe HDFS. HBase este utilizat atunci când aveți nevoie de citire / scriere în timp real și acces aleatoriu la date mari. HBase este modelat pe baza conceptelor Googles BigTable.

Stup

Apache Hive este un sistem de software pentru depozit de date open-source. Hive a fost dezvoltat inițial de înainte de a intra în cadrul Apache Software Foundation și a devenit open source. Acesta facilitează gestionarea și interogarea seturilor de date mari pe stocarea distribuită compatibil Hadoop. Hive își desfășoară toate activitățile folosind un limbaj asemănător cu SQL cunoscut sub numele de HiveQL. (Aflați mai multe în Scurtă introducere în Apache Hive și Pig.)

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Porcul Apache

Pig a fost inițial inițiat de Yahoo pentru dezvoltarea și executarea de locuri de muncă MapReduce pe un volum mare de date distribuite. Acum a devenit un proiect open source în cadrul Apache Software Foundation. Apache Pig poate fi definit ca o platformă pentru analiza seturilor de date foarte mari într-un mod eficient. Stratul de infrastructură a porcilor produce secvențe de lucrări MapReduce pentru efectuarea procesării efective. Stratul de limbaj al porcilor este cunoscut sub denumirea de Pig Latin și oferă funcții similare SQL pentru a efectua interogări pe seturi de date distribuite.

Scânteie Apache

Spark a fost inițial dezvoltat de AMPLab la UC Berkeley. A devenit un proiect de nivel superior al lui Apache în februarie 2014. Apache Spark poate fi definit ca un cadru de calcul open-source, cu scop general, de cluster, care face analiza datelor mult mai rapidă. Este construit pe partea de sus a sistemului de fișiere distribuite Hadoop, dar nu este legat de cadrul MapReduce. Performanța scântei este mult mai rapidă în comparație cu MapReduce. Oferă API-uri la nivel înalt în Scala, Python și Java.

Apache Cassandra

Apache Cassandra este o altă bază de date NoSQL open source. Cassandra este utilizat pe scară largă pentru a gestiona volume mari de intervale de date structurate, semi-structurate și nestructurate pe mai multe centre de date și stocare în cloud. Cassandra este proiectată pe baza unei arhitecturi „fără master”, ceea ce înseamnă că nu acceptă modelul maestru / sclav. În această arhitectură, toate nodurile sunt la fel, iar datele sunt distribuite automat și în mod egal în toate nodurile. Cele mai importante caracteristici ale Cassandras sunt disponibilitatea continuă, scalabilitatea liniară, replicarea integrată / personalizabilă, niciun singur punct de eșec și simplitatea operațională.

Încă un negociator de resurse (YARN)

Totuși, un alt negociator de resurse (YARN) este cunoscut și sub denumirea de MapReduce 2.0, dar se încadrează de fapt în Hadoop 2.0. YARN poate fi definit ca o planificare a lucrărilor și un cadru de gestionare a resurselor. Ideea de bază a YARN este de a înlocui funcționalitățile JobTracker cu doi demoni separati responsabili de gestionarea resurselor și de planificare / monitorizare. În acest nou cadru, vor exista un ResourceManager global (RM) și un master specific aplicației cunoscut sub numele de ApplicationMaster (AM). ResourceManager global (RM) și NodeManager (per node slave) formează cadrul propriu de calcul al datelor. Aplicațiile MapReduce v1 existente pot fi, de asemenea, rulate pe YARN, dar aceste aplicații trebuie recompilate cu borcane Hadoop2.x.

Impala

Impala poate fi definită ca un motor de interogare SQL cu putere masivă de procesare paralelă (MPP). Se rulează nativ pe cadrul Apache Hadoop. Impala este concepută ca parte a ecosistemului Hadoop. Partajează același sistem de fișiere flexibil (HDFS), metadate, gestionarea resurselor și cadre de securitate utilizate de alte componente ale ecosistemului Hadoop. Cel mai important punct este să rețineți că Impala este mult mai rapid în procesarea interogărilor în comparație cu stupul. Trebuie, de asemenea, să ne amintim că Impala este destinată interogării / analizei pe un set mic de date și este conceput în principal ca un instrument de analiză care lucrează pe date procesate și structurate.

Hadoop este un subiect important în domeniul IT, dar există și cei care sunt sceptici cu privire la viabilitatea sa pe termen lung. Citiți mai multe în Ce este Hadoop? O teorie cinică.