De ce Hadoop este o potrivire perfectă pentru secvențierea genomului

Autor: Roger Morrison
Data Creației: 19 Septembrie 2021
Data Actualizării: 5 Mai 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Conţinut


Sursa: A3701027 / Dreamstime.com

La pachet:

Secvențializarea genomului are nevoie de instrumente tehnologice puternice pentru a gestiona toate datele sale, iar Hadoop este la îndemână.

Genomica clinică este un subiect fascinant, unde oamenii lucrează la tehnologii de ultimă oră pentru a procesa rezultate rapide și precise. Există o mulțime de secvențiatori de genom disponibile pe piață și produc petabyte de date de secvență, iar creșterea secvențării va produce exabyte de date în viitorul apropiat. Aici, Hadoop este platforma perfectă pentru prelucrarea fluxului de lucru genomic complex. Hadoop poate stoca și sorta cantități masive de informații și, de asemenea, poate face o analiză semnificativă. (Pentru a vă face o idee despre cât de multe date implică acest lucru, citiți Bits de înțelegere, octeți și multiplii lor.)

Prezentul și viitorul genomicii

Astăzi, cartografierea genomului a atins apogeul său de dezvoltare. Multe persoane asociate industriei genomicelor sunt pline de curiozitate și, pe măsură ce noile oportunități se prezintă, tehnologia mai bună este nevoia orei. Secvențializarea genomului este o sarcină foarte repetitivă și intensivă în resurse. Numai în 2013, au fost produse aproximativ 15 petabytes de date și doar de 2.000 de secvențiatori. Această cantitate de scădere a maxilarului a inclus 300 KB de date secvențiate ale genomului uman. La această rată a producției de date, se poate estima că până în 2018 vor fi produse aproximativ un exabyte de date. Acest lucru se va datora creșterii secvențiatorilor, care vor produce din ce în ce mai multe date. Un alt motiv este apariția unor mașini de secvențiere a genomului extrem de puternice și cu costuri reduse. Din 2008, prețul acestor mașini a scăzut constant. Acest lucru se datorează mașinilor puternice de generație viitoare care au ieșit pe piață.


Nevoile industriei de cartografiere a genomului

Algoritmii complexi sunt folosiți pentru prelucrarea datelor colectate de la genomul uman. Apoi, aceste informații trebuie stocate. Poate fi revizuit în viitor pentru a fi comparat cu datele originale. Sarcina procesării și stocării a 100 GB de date nu este prea dificilă, mai ales atunci când o faceți cu mașinile puternice folosite în centrele de secvențare. Studiile arată că această cantitate de date poate fi procesată în doar aproximativ 1000 de ore de procesor, deci este foarte ușoară. La acest ritm de avansare tehnică, este evident că industria genomului va prelucra în curând mii de gigabite în doar câteva secunde.

Cu toate acestea, tehnicile de gestionare și stocare a datelor nu evoluează la fel de rapid, din cauza cărora se poate aștepta o pierdere mare de date prețioase. Acest lucru este cu adevărat nedorit, deoarece va împiedica serios progresele înregistrate în genomica umană. Deci, nevoia unei tehnici eficiente de gestionare a datelor, care poate fi actualizată cu ușurință, este foarte mare. Acest lucru poate fi eficient mai ales în viitorul apropiat, unde maparea genomului se va muta de la laboratoare mari cu computere puternice la spitale și laboratoare mici.


Ce este de așteptat în soluție?

Ritmul în care sunt descoperite și dezvoltate noi tehnici de secvențiere genomică este extrem de mare. Acest ritm poate fi foarte benefic pentru știința medicală, sub forma unui pas puternic spre eradicarea bolilor majore. Totuși, acest ritm poate fi foarte dificil.

Provocarea se prezintă sub forma gestionării cantităților mari de date produse de proiectele de secvențiere. Așadar, este nevoie de o soluție eficientă care să ajute la stocarea și procesarea datelor mari. Această soluție trebuie să fie ieftină și rapidă, fiind în același timp adaptivă. Analiza oferită de această soluție trebuie să fie exactă și constantă. Deci, care este soluția problemei? Fără îndoială, este Hadoop. (Pentru mai multe informații despre utilizările Hadoop, consultați 5 Informații despre Big Data (Hadoop) ca serviciu.)

De ce Hadoop este cea mai bună soluție pentru secvențarea genomului

Ceea ce are nevoie de industria de genomică este o soluție superioară care îi poate ajuta să gestioneze eficient datele, să le prelucreze și să le stocheze pentru utilizare viitoare. Această soluție pare a fi o potrivire perfectă cu software-ul Hadoop. Deci, Hadoop poate fi considerat drept software-ul perfect de gestionare a datelor care poate îmbunătăți mult tehnicile actuale de stocare a datelor din industria genomică.

Capacitățile în timp real ale lui Hadoop fac posibilă analizarea și stocarea unor cantități mari de date simultan în timp real. Aceasta permite, de asemenea, utilizarea viitoare a datelor. Hadoop poate bate multe sisteme vechi, deoarece este mult mai rapid și mai fiabil decât ele.

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Ce altceva poate face Hadoop?

Datorită Hadoop, un număr mare de posibilități și oportunități s-au deschis în domeniul genomicii și al secvențării genelor. Hadoop oferă opțiuni de calcul paralel, datorită cărora este posibilă o secvențare mai rapidă. De asemenea, folosind funcția MapReduce a Hadoop, un număr mare de gene poate fi mapat foarte ușor. Din această cauză, secvențarea cu Hadoop va deveni cu adevărat „gen-ul următor” și va fi mult mai puțin complicată.

Oportunități pentru Hadoop

Hadoop are mai multe oportunități în industria genomului, dar cea mai bună a fost derivată din articolul lui Lynda Chin, „Sensul datelor genomice pentru cancer”, în revista Genes & Development. În acest articol, ea discută despre modul în care genomica modernă a deschis noi uși, iar acest lucru a dus la rezultate pozitive, precum descoperirea informațiilor genomice despre cancer. Datorită acestui fapt, suntem mai aproape de a descoperi vindecarea cancerului în sine. Cu toate acestea, este nevoie de puțin mai multă atenție și de o aplicație puternică de gestionare a datelor pentru o mai bună capacitate de cercetare în domeniu. Aceasta poate fi cea mai bună oportunitate pentru Hadoop de a-și demonstra viteza, puterea și exactitatea.

Crossbow: Platforma de gestionare a datelor de generație următoare

Crossbow, care este o conductă software destinată analizei re-secvențierii genomului, este una dintre cele mai bune soluții. A fost rezultatul integrării în Hadoop între un algoritm rapid de aliniere a datelor secvențiate, care se numește Bowtie, și un algoritm puternic care compară și examinează datele secvențiate, adică un genotip numit SoapSNP. Este construit pe Apache Hadoop și se bazează pe implementarea cadrului MapReduce. Crossbow este portabil, scalabil și este potrivit, de asemenea, ca un instrument de calcul cloud.

Cu această integrare puternică, un genom complet poate fi examinat într-o singură zi pe un cluster local cu 10 noduri. Cu un cluster cu 40 de noduri, procesul este chiar mai rapid și se finalizează în doar trei ore cu un cost total mai mic de 100 USD! Un studiu realizat pentru a testa exactitatea Crossbow a arătat că poate compara fiecare genom cu o precizie de 99 la sută. O altă caracteristică utilă a Crossbow este că rulează pe cloud. Astfel, Crossbow va permite miilor de viitoare centre de secvențiere, precum spitalele, să secvențeze cantități mari de date despre genom, fără a fi nevoie de computere și tehnologie puternice și costisitoare.

Alte programe software Genomics bazate pe Hadoop

Multe companii au recunoscut puterea Hadoop în schimbarea lumii genomicii. Au modificat în mod adecvat Hadoop pentru a valorifica potențialul său de secvențiere avansată a genomului. Câteva exemple de soluții celebre de secvențiere a genomului bazate pe Hadoop sunt prezentate mai jos:

  • Hadoop-BAM: Acesta este un instrument puternic de gestionare a datelor care utilizează funcția MapReduce a Hadoop pentru diverse activități legate de genomică, cum ar fi genotipizarea. Aceasta funcționează în formatul aliniere binară / hartă.
  • Cloudburst: Această soluție bazată pe Hadoop a fost creată în 2009. Este extrem de eficientă în compararea secvențelor genomului și a mapării genelor individuale. Aceasta este, de asemenea, una dintre primele aplicații bazate pe Hadoop, concepute în acest scop.

Concluzie

Integrarea dintre datele mari și industria genomicii se dovedește a fi o amploare în timpurile moderne. Aceste platforme sunt eficiente în descoperirea tratamentelor mai multor boli precum cancerul. Datele care sunt găsite prin cartografierea genomului pot fi utilizate pentru formularea informațiilor preventive despre astfel de boli. Apariția datelor mari poate fi privită ca un punct de cotitură în lumea genomicii, iar dacă informațiile sunt utilizate cu înțelepciune, atunci și în domeniul mai larg al asistenței medicale. Singura modalitate de avansare a acestui câmp este utilizarea unor instrumente adecvate de gestionare a datelor, cum ar fi Hadoop.