Kudu: Un schimbător de jocuri în ecosistemul Hadoop?

Conţinut

Ce este Kudu?
Care este starea actuală a lui Kudus?
Cum poate Kudu să completeze HDFS / HBase?
Caracteristici ale cadrului Kudu
Cum poate Kudu schimba ecosistemul Hadoop?
Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața
Concluzie

Sursa: Agsandrew / Dreamstime.com

La pachet:

Kudu este un proiect open-source care ajută la gestionarea eficientă a stocării.

Kudu este un nou proiect open-source care oferă stocare actualizabilă. Este o completare la HDFS / HBase, care oferă stocare secvențială și numai în citire. Kudu este mai potrivit pentru analiza rapidă a datelor rapide, ceea ce este în prezent cererea de afaceri. Deci Kudu nu este doar un alt proiect ecosistem Hadoop, ci are potențialul de a schimba piața. (Pentru mai multe despre Hadoop, consultați Cei mai importanți termeni Hadoop pe care trebuie să-i cunoașteți și să-i înțelegeți.)

Ce este Kudu?

Kudu este un tip special de sistem de stocare care stochează date structurate sub formă de tabele. Fiecare tabel are un număr de coloane care sunt predefinite. Fiecare dintre ele are o cheie primară, care este de fapt un grup de una sau mai multe coloane din tabelul respectiv. Această cheie principală este făcută pentru a adăuga o restricție și pentru a securiza coloanele și funcționează, de asemenea, ca un index, care permite actualizarea și ștergerea ușoară. Aceste tabele sunt o serie de subseturi de date numite tablete.

Care este starea actuală a lui Kudus?

Kudu este foarte bine dezvoltat și este deja cuplat cu o mulțime de caracteristici. Cu toate acestea, va mai avea nevoie de unele aspecte de lustruire, care pot fi realizate mai ușor dacă utilizatorii sugerează și fac unele modificări.

Kudu este complet open source și are licența de software Apache 2.0. De asemenea, este destinat să fie transmis către Apache, pentru a putea fi dezvoltat ca un proiect de incubator Apache. Acest lucru va permite dezvoltării sale să progreseze și mai repede și să-i crească în continuare audiența. După o anumită perioadă de timp, dezvoltarea lui Kudu se va face public și transparent. Multe companii precum AtScale, Xiaomi, Intel și Splice Machine s-au unit pentru a contribui la dezvoltarea Kudu. Kudu are, de asemenea, o comunitate numeroasă, unde un număr mare de publicuri își oferă deja sugestiile și contribuțiile. Deci, oamenii sunt cei care conduc dezvoltarea lui Kudu înainte.

Cum poate Kudu să completeze HDFS / HBase?

Kudu nu este menit să fie un înlocuitor pentru HDFS / HBase. Acesta este de fapt conceput pentru a sprijini atât HBase, cât și HFDS și să fie difuzate alături de ele pentru a le crește caracteristicile. Acest lucru se datorează faptului că HBase și HDFS au încă multe funcții care le fac mai puternice decât Kudu pe anumite mașini. În general, astfel de mașini vor obține mai multe beneficii din aceste sisteme.

Caracteristici ale cadrului Kudu

Principalele caracteristici ale cadrului Kudu sunt următoarele:

Scanări extrem de rapide ale coloanelor tabelului - Cele mai bune formate de date precum Parquet și ORCFile au nevoie de cele mai bune proceduri de scanare, care sunt abordate perfect de Kudu. Astfel de formate au nevoie de scanări rapide care pot apărea numai atunci când datele columnare sunt codificate corespunzător.
Fiabilitatea performanței - Cadrul Kudu crește fiabilitatea generală a lui Hadoop, închizând multe lacune și lacune prezente în Hadoop.
Integrare ușoară cu Hadoop - Kudu poate fi integrat cu Hadoop și cu componentele sale diferite pentru o mai mare eficiență.
Sursă complet deschisă - Kudu este un sistem open-source cu licența Apache 2.0. Are o comunitate mare de dezvoltatori din diferite companii și medii, care o actualizează în mod regulat și oferă sugestii pentru modificări.

Cum poate Kudu schimba ecosistemul Hadoop?

Kudu a fost construit pentru a se încadra în ecosistemul Hadoop și pentru a îmbunătăți caracteristicile acestuia. De asemenea, se poate integra cu unele componente cheie ale lui Hadoop, cum ar fi MapReduce, HBase și HDFS. Joburile MapReduce pot furniza date sau pot prelua date din tabelele Kudu. Aceste caracteristici pot fi utilizate și în Spark. Un strat special face ca unele componente Spark precum Spark SQL și DataFrame să fie accesibile pentru Kudu. Deși Kudu nu a fost dezvoltat atât încât să înlocuiască aceste caracteristici, se estimează că după câțiva ani, va fi suficient de dezvoltat pentru a face acest lucru. Până atunci, integrarea dintre Hadoop și Kudu este într-adevăr foarte utilă și poate umple lacunele majore ale ecosistemului Hadoop. (Pentru a afla mai multe despre Apache Spark, consultați modul în care Apache Spark ajută la dezvoltarea rapidă a aplicațiilor.)

Kudu poate fi implementat într-o varietate de locuri. Câteva exemple de astfel de locuri sunt prezentate mai jos:

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Transmiterea fluxurilor de date în timp aproape real - În locurile în care intrările trebuie primite cât mai curând, Kudu poate face o treabă remarcabilă. Un exemplu de astfel de loc se află în întreprinderi, unde cantități mari de date dinamice inundă din surse diferite și trebuie să fie disponibile rapid în timp real.
Aplicații din seria timpului cu modele de acces variate - Kudu este perfect pentru aplicațiile bazate pe serii de timp, deoarece este mai simplu să configurați tabele și să le scanați folosind-o. Un exemplu de utilizare este în magazinele mari, unde datele vechi trebuie găsite rapid și procesate pentru a prezice popularitatea viitoare a produselor.
Sisteme vechi - Multe companii care obțin date din diverse surse și le depozitează în diferite stații de lucru se vor simți acasă cu Kudu. Kudu este extrem de rapid și se poate integra eficient cu Impala pentru a procesa datele de pe toate mașinile.
Modelare predictivă - Oamenii de știință de date care doresc o platformă bună pentru modelare pot folosi Kudu. Kudu poate învăța din fiecare set de date introduse în el. Omul de știință poate rula și reexecuta modelul în mod repetat pentru a vedea ce se întâmplă.

Concluzie

Chiar dacă Kudu este încă în stadiul de dezvoltare, are potențial suficient pentru a fi un bun supliment pentru componentele Hadoop standard precum HDFS și HBase. Are un potențial suficient pentru a schimba complet ecosistemul Hadoop completând toate lacunele și adăugând și alte caracteristici. De asemenea, este foarte rapid și puternic și poate ajuta la analizarea și stocarea rapidă a tabelelor mari de date. Cu toate acestea, mai rămâne ceva de făcut pentru ca acesta să fie utilizat mai eficient.