De ce Spark este Viitoare Platforma Big Data

Video: Big Data PPP Industrial Data Platforms - Towards cross-sectorial optimization and traceability

Conţinut

Ce este Apache Spark?
De ce scânteia este atât de importantă față de Hadoop
Care sunt caracteristicile unice ale scânteilor?
De ce Spark nu este o înlocuire pentru Hadoop
Ce cred companiile despre Spark și Hadoop
Implementări practice
Concluzie

Sursa: Snake3d / Dreamstime.com

La pachet:

Apache Spark este un instrument open-source pentru procesarea datelor mari care se extinde pe (și, în unele moduri, depășește) Hadoop.

Apache Hadoop a fost baza pentru aplicații de date mari de mult timp și este considerată platforma de date de bază pentru toate ofertele legate de date mari. Cu toate acestea, baza de date în memorie și calculul câștigă popularitate din cauza performanței mai rapide și a rezultatelor rapide. Apache Spark este un cadru nou care folosește capabilități în memorie pentru a furniza procesări rapide (de aproape 100 de ori mai rapid decât Hadoop). Deci, produsul Spark este folosit din ce în ce mai mult într-o lume cu date mari și în principal pentru o procesare mai rapidă.

Ce este Apache Spark?

Apache Spark este un cadru open-source pentru procesarea volumelor uriașe de date (date mari) cu rapiditate și simplitate. Este potrivit pentru aplicații de analiză bazate pe date mari. Scânteia poate fi folosită cu un mediu Hadoop, autonom sau în nor. A fost dezvoltat la Universitatea din California, iar ulterior a fost oferit Apache Software Foundation. Astfel, aparține comunității open-source și poate fi foarte rentabil, ceea ce permite în continuare dezvoltatorilor amatori să lucreze cu ușurință. (Pentru a afla mai multe despre Hadoops open source, consultați Care este influența open source asupra ecosistemului Hacheop Apache?)

Scopul principal al Spark este acela că oferă dezvoltatorilor un cadru de aplicații care funcționează în jurul unei structuri de date centrate. Spark este, de asemenea, extrem de puternic și are capacitatea înnăscută de a prelucra rapid cantități masive de date într-un interval scurt de timp, oferind astfel performanțe extrem de bune.Acest lucru îl face mult mai rapid decât ceea ce se spune că este cel mai apropiat concurent al său, Hadoop.

De ce scânteia este atât de importantă față de Hadoop

Apache Spark a fost întotdeauna cunoscut că îl trântește pe Hadoop în mai multe caracteristici, ceea ce explică probabil de ce rămâne atât de important. Unul dintre motivele principale pentru aceasta ar fi să ia în considerare viteza de procesare a acestuia. De fapt, așa cum s-a menționat deja, Spark oferă o procesare de aproximativ 100 de ori mai rapidă decât MapReduce a lui Hadoop pentru aceeași cantitate de date. De asemenea, utilizează resurse semnificativ mai puține în comparație cu Hadoop, ceea ce îl face rentabil.

Un alt aspect cheie în care Spark are mâna superioară este în termeni de compatibilitate cu un manager de resurse. Se știe că Apache Spark funcționează cu Hadoop, la fel cum face MapReduce, cu toate acestea, acesta din urmă este compatibil doar cu Hadoop. În ceea ce privește Apache Spark, poate funcționa cu alți manageri de resurse, cum ar fi YARN sau Mesos. Oamenii de știință din date citează adesea acest lucru ca unul dintre cele mai mari domenii în care Spark îl depășește cu adevărat pe Hadoop.

Când vine vorba de ușurința de utilizare, Spark se întâmplă din nou să fie mult mai bun decât Hadoop. Spark are API-uri pentru mai multe limbi, cum ar fi Scala, Java și Python, pe lângă faptul că are like-uri ale Spark SQL. Este relativ simplu să scrieți funcții definite de utilizator. De asemenea, se întâmplă să se laude cu un mod interactiv pentru rularea comenzilor. Pe de altă parte, Hadoop este scris în Java și și-a câștigat reputația de a fi destul de dificil de programat, deși are instrumente care ajută la acest proces. (Pentru a afla mai multe despre Spark, consultați modul în care Apache Spark ajută la dezvoltarea rapidă a aplicațiilor.)

Care sunt caracteristicile unice ale scânteilor?

Apache Spark are câteva caracteristici unice care o disting cu adevărat de mulți dintre concurenții săi în domeniul prelucrării datelor. Unele dintre acestea au fost prezentate succint mai jos.

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Spark are, de asemenea, o capacitate înnăscută de a încărca informațiile necesare în miezul său, cu ajutorul algoritmilor săi de învățare automată. Acest lucru îi permite să fie extrem de rapid.

Apache Spark vine cu abilitatea de a procesa grafice sau chiar informații care sunt de natură grafică, permițând astfel analiza ușoară cu multă precizie.

Apache Spark are MLib, care este un cadru destinat învățării masive structurate. Este, de asemenea, predominant mai rapid în implementare decât Hadoop. De asemenea, MLib este capabil să rezolve mai multe probleme, cum ar fi citirea statistică, prelevarea de date și testarea premiselor, pentru a numi câteva.

De ce Spark nu este o înlocuire pentru Hadoop

În ciuda faptului că Spark are câteva aspecte în care trântește mâinile pe Hadoop, există încă mai multe motive pentru care nu se poate înlocui cu adevărat pe Hadoop încă.

În primul rând, Hadoop oferă pur și simplu un set mai mare de instrumente în comparație cu Spark. De asemenea, are mai multe practici care sunt recunoscute în industrie. Cu toate acestea, Apache Spark este încă relativ tânără în domeniu și va avea nevoie de ceva timp pentru a se înrudi cu Hadoop.

MapReduce de la Hadoop a stabilit, de asemenea, anumite standarde din domeniul industriei atunci când vine vorba de operațiuni cu funcții complete. Pe de altă parte, încă se crede că Spark nu este în întregime pregătit să funcționeze cu o fiabilitate completă. Adesea, organizațiile care folosesc Spark trebuie să-l ajusteze, pentru a-l pregăti pentru setările lor.

De asemenea, este mai ușor de configurat MapReduce de la Hadoop, de mai mult timp decât Spark. Nu este cazul pentru Spark, având în vedere că oferă o platformă cu totul nouă, care nu a testat cu adevărat patch-uri.

Ce cred companiile despre Spark și Hadoop

Multe companii au început deja să folosească Spark pentru nevoile lor de prelucrare a datelor, dar povestea nu se termină acolo. Cu siguranță are câteva aspecte puternice care îl fac o platformă uimitoare de prelucrare a datelor. Cu toate acestea, vine și cu cota sa corectă de dezavantaje care necesită remediere.

Este o idee a industriei că Apache Spark este aici pentru a rămâne și este chiar posibil viitorul pentru nevoile de prelucrare a datelor. Cu toate acestea, mai trebuie să se supună multor activități de dezvoltare și lustruire care să îi permită să își valorifice cu adevărat potențialul.

Implementări practice

Apache Spark a fost și este încă angajat de numeroase companii care se potrivesc cerințelor lor de prelucrare a datelor. Una dintre cele mai de succes implementări a fost realizată de Shopify, care a căutat să selecteze magazinele eligibile pentru colaborări de afaceri. Cu toate acestea, depozitul său de date a scăzut termenul în care dorea să înțeleagă produsele pe care clienții săi le vând. Cu ajutorul Spark, compania a putut să proceseze câteva milioane de înregistrări de date și apoi să proceseze 67 de milioane de înregistrări în câteva minute. De asemenea, a stabilit care sunt magazinele eligibile.

Folosind Spark, Pinterest este capabil să identifice tendințele în curs de dezvoltare și apoi îl folosește pentru a înțelege comportamentul utilizatorilor. Acest lucru permite o valoare mai bună în comunitatea Pinterest. Spark este folosit și de TripAdvisor, unul dintre cele mai mari site-uri de informații de călătorie din lume, pentru a accelera recomandările adresate vizitatorilor.

Concluzie

Nu ne putem îndoi de abilitatea lui Apache Spark, chiar și în prezent, și de setul unic de funcții pe care le aduce la masă. Puterea și viteza de procesare, împreună cu compatibilitatea sa, stabilesc tonul pentru mai multe lucruri în viitor. Cu toate acestea, are, de asemenea, mai multe domenii pe care trebuie să le perfecționeze, pentru a-și realiza cu adevărat întregul potențial. În timp ce Hadoop rămâne în continuare în vigoare în prezent, Apache Spark are un viitor strălucitor și este considerat de mulți drept viitoarea platformă pentru cerințele de prelucrare a datelor.