Care sunt avantajele cadrului Hadoop 2.0 (YARN)?

Autor: Roger Morrison
Data Creației: 18 Septembrie 2021
Data Actualizării: 1 Iulie 2024
Anonim
29 - Hadoop. Что такое YARN?
Video: 29 - Hadoop. Что такое YARN?

Conţinut


Sursa: Jim Hughes / Dreamstime.com

La pachet:

YARN este o îmbunătățire semnificativă față de cadrul Hadoop 1.0. Aici examinăm câteva dintre avantajele pe care le are față de predecesorul său.

De când a fost introdus conceptul de date mari, acesta a trecut prin mai multe faze de evoluție. Hadoop a fost introdus în 2005 cu câteva caracteristici inițiale, cum ar fi motorul de procesare MapReduce, care a permis sarcini de prelucrare a datelor la scară largă distribuite în clustere. Hadoop în sine a cunoscut o mulțime de schimbări și a dezvoltat cadre și metode avansate.

YARN este o componentă de bază a Hadoop 2.0. Practic gestionează resursele într-un mediu grupat. Brokerul YARN interacționează cu resursele de calcul (în numele aplicațiilor) și alocă resurse fiecărei aplicații pe baza unor criterii de filtrare diferite.

În acest articol, vom analiza avantajele de top ale YARN față de Hadoop 1.0.


Ce este cadrul YARN?

Yet ANother Resource Negotiator este o componentă de bază a Hadoop 2.0, care gestionează resursele într-un mediu grupat. Cadrul Hadoop YARN este o versiune avansată a Hadoop 1.0 care oferă performanțe îmbunătățite, care este benefic pentru ecosistemul Hadoop și pentru întreaga gamă de tehnologii asociate acestuia. Acum că suntem un pic mai familiarizați cu YARN, să aruncăm o privire mai atentă la Hadoop 1.0 și YARN.

Limitările cadrului Hadoop 1.0

Pentru a înțelege avantajele cadrului YARN, este foarte important să înțelegem cum funcționează Hadoop 1.0 și care sunt limitele acestui cadru.

Aici intervine rolul JobTracker. Gestionează atât resursele clusterului, cât și determină execuția lucrării MapReduce. Pe scurt, JobTracker planifică și rezervă sloturile de sarcini și configurează și monitorizează fiecare sarcină care rulează. Dacă o sarcină nu reușește, aceasta realocă un nou slot pentru ca sarcina să înceapă din nou. După terminarea unei sarcini, JobTracker eliberează slotul pentru alte sarcini și curăță resursele temporare.


Dezavantaje majore ale abordării de mai sus:

  • Disponibilitate - JobTracker este singurul punct de disponibilitate din Hadoop 1.0. Aceasta înseamnă că, dacă JobTracker eșuează, toate sarcinile vor reporni în mod implicit.
  • Scalabilitate limitată - Deoarece JobTracker efectuează mai multe sarcini și rulează pe o singură mașină, celelalte mașini disponibile nu sunt utilizate; prin urmare, rezultând scalabilitate limitată.
  • Utilizarea resurselor - În abordarea de mai sus, sloturile de hartă și sloturile reduse sunt predefinite. S-ar putea întâmpla ca unul dintre sloturi să fie plin, dar celelalte sloturi ale mașinii sunt goale. Deoarece sloturile goale sunt rezervate, acestea vor sta inactiv în loc să facă compromisuri pentru sloturile complete. Acest lucru ar putea cauza o problemă de utilizare a resurselor.
  • Rularea aplicațiilor care nu sunt MapReduce - JobTracker este o aplicație care este construită pentru cadrul MapReduce. Problema apare atunci când o aplicație non-MapReduce încearcă să ruleze în acest cadru. Aplicația trebuie să se conformeze programării cadrului MapReduce pentru a putea rula cu succes. Unele dintre problemele comune cu care se confruntă acest lucru includ probleme cu:
    • Interogare ad-hoc
    • Analiza în timp real
    • abordare trecătoare
  • Eșecul în cascadă - Una dintre problemele majore din acest cadru apare atunci când numărul de noduri este mai mare de 4000. Într-un astfel de scenariu, apare o eroare în cascadă, ceea ce duce la deteriorarea clusterului complet.

Acestea sunt unele dintre limitările majore cu care se confruntă în timp ce lucrează cu acest cadru. Există și alte limitări minore, care nu sunt menționate. Cadrul YARN a fost introdus pentru a depăși aceste limitări.

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de software care poate schimba viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

YARN Framework și avantajele sale

Cadrul YARN, introdus în Hadoop 2.0, este menit să împărtășească responsabilitățile MapReduce și să aibă grijă de sarcina de gestionare a clusterului. Aceasta permite MapReduce să execute numai procesarea datelor și, prin urmare, să eficientizeze procesul.

YARN aduce conceptul unui management central al resurselor. Aceasta permite rularea mai multor aplicații pe Hadoop, partajând un management comun al resurselor.

Unele dintre componentele majore ale cadrului YARN sunt:

  • ResourceManager - Componenta ResourceManager este negociatorul unui cluster pentru toate resursele prezente în acel cluster. Mai mult, această componentă este clasificată într-un manager de aplicații care este responsabil de gestionarea joburilor utilizatorilor. De la Hadoop 2.0, orice job MapReduce va fi considerat ca o aplicație.
  • ApplicationMaster - Această componentă este locul în care există o lucrare sau o aplicație. De asemenea, gestionează toate lucrările MapReduce și se încheie după finalizarea procesării lucrărilor.
  • NodeManager - Componenta managerului de noduri acționează ca serverul pentru istoricul lucrărilor. Este responsabil pentru asigurarea informațiilor despre lucrările finalizate. De asemenea, ține evidența lucrărilor utilizatorilor împreună cu fluxul de lucru pentru un anumit nod.

Reținând că cadrul YARN are componente diferite pentru a gestiona diferitele sarcini, să vedem cum contracarează limitările Hadoop 1.0.

  • Utilizarea mai bună a resurselor - Cadrul YARN nu are sloturi fixe pentru sarcini. Oferă un manager de resurse central care vă permite să partajați mai multe aplicații printr-o resursă comună.
  • Rularea aplicațiilor care nu sunt MapReduce - În YARN, programările și capacitățile de gestionare a resurselor sunt separate de componenta de procesare a datelor. Acest lucru permite Hadoop să ruleze tipuri variate de aplicații care nu sunt conforme cu programarea cadrului Hadoop. Grupurile Hadoop sunt acum capabile să ruleze interogări interactive independente și să efectueze o analiză mai bună în timp real.
  • Compatibilitate cu întoarcerea - YARN vine ca un cadru compatibil înapoi, ceea ce înseamnă că orice lucrare existentă de MapReduce poate fi executată în Hadoop 2.0.
  • JobTracker nu mai există - Cele două roluri majore ale JobTracker au fost gestionarea resurselor și planificarea postului. Odată cu introducerea cadrului YARN, acestea sunt acum separate în două componente separate, și anume:
    • NodeManager
    • Manager de resurse

Concluzie

Introducerea cadrului YARN a facilitat construirea aplicațiilor pentru dezvoltatorii Hadoop. Acum, aplicațiile nu mai sunt necesare pentru a fi implementate cu instrumente terțe. YARN este o schimbare uriașă care va permite utilizatorilor să ia în considerare Hadoop 2.0 să creeze aplicații și să manipuleze mai eficient datele. Cu timpul, vor fi dezvoltate în continuare pentru a îmbunătăți capacitatea de utilizare a Hadoop. Deocamdată, cadrul YARN va juca un rol crucial în soluționarea problemelor existente și în crearea unui mediu fără probleme, care este mai versatil decât versiunea anterioară a modelului MapReduce.