Puterea sugestiei: modul în care un catalog de date împuternicește analistii

La pachet: Gazda Rebecca Jozwiak discută despre avantajele cataloagelor de date cu Dez Blanchfield, Robin Bloor și David Crawford.

Pentru a vizualiza videoclipul trebuie să vă înregistrați la acest eveniment. Înregistrați-vă pentru a vedea videoclipul.

Rebecca Jozwiak: Doamnelor și domnilor, salut și bine ați venit la Hot Technologies din 2016. Astăzi am primit „Puterea sugestiei: Cum un catalog de date împuterniciște analistii.” Eu sunt gazda dvs. Rebecca Jozwiak, completându-l pentru gazda noastră obișnuită Eric Kavanagh astăzi, în timp ce el călătorește lumea, așa că vă mulțumesc că ne-ați alăturat. Anul acesta este cald, nu este doar cald în Texas unde sunt, dar este cald peste tot. Există o explozie de tot felul de noi tehnologii. Avem IoT, streaming de date, adopție cloud, Hadoop continuă să se maturizeze și să fie adoptat. Avem automatizare, învățare automată și toate aceste lucruri sunt bineînțeles subliniate de date. Iar întreprinderile devin din ce în ce mai multe date pe timp de zi. Și, bineînțeles, scopul este acela de a duce la cunoaștere și descoperire și, știți, să luați decizii mai bune. Dar pentru a obține cea mai mare valoare din date, trebuie să fie ușor de accesat. Dacă îl țineți închis sau îngropat sau în creierul câtorva oameni din întreprindere, nu va face prea mult bine pentru întreprindere în ansamblul său.

Și mă gândeam la catalogarea datelor și mă gândeam bineînțeles la biblioteci, unde demult, acolo ai fost dacă ai nevoie să afli ceva, dacă ai nevoie să cercetezi un subiect sau să cauți câteva informații, te-ai dus la bibliotecă și, bineînțeles, te-ai dus la catalogul de cărți sau la doamna crabby care lucra acolo. Dar, de asemenea, a fost distractiv să te rătăcești, dacă vrei doar să arăți și să fii sigur că poți doar să descoperi ceva îngrijit, s-ar putea să afli câteva fapte interesante pe care nu le știai, dar dacă ai avea nevoie cu adevărat să afli ceva și știați ce căutați, aveți nevoie de catalogul de carduri și, desigur, echivalentul întreprinderii este un catalog de date, care vă poate ajuta să lumineze toate datele pentru ca utilizatorii noștri să îmbogățească, să descopere, să partajeze, să consume și să ajute într-adevăr oamenii la date mai rapid și mai ușor.

Așadar, astăzi l-am primit pe Dez Blanchfield, propriul nostru om de știință de date și îl avem pe doctorul Robin Bloor, propriul nostru analist șef, l-am primit pe David Crawford de la Alation, care va vorbi despre povestea de catalogare a datelor companiei sale, dar mai întâi vom merge să conducă cu Dez. Dez, îți trec mingea și podeaua ta.

Dez Blanchfield: Mulțumesc, mulțumesc că mă ai azi. Aceasta este o problemă de care sunt extrem de interesată, deoarece aproape fiecare organizație pe care o întâlnesc în activitatea mea de zi cu zi, găsesc exact aceeași problemă despre care am vorbit foarte pe scurt în banterul de pre-spectacol și acesta este faptul că majoritatea organizațiilor care lucrează de mai bine de câțiva ani au o mulțime de date îngropate în jurul organizației, diferite formate și, de fapt, am clienți care au seturi de date care se întorc la Lotus Notes, baze de date care încă mai rulează în unele cazuri ca pseudo internații și ei, toți se confruntă cu această provocare de a găsi de fapt unde se află datele lor și cum să obțină acces la ele, cine să le ofere acces, când să le ofere acces și cum să facă catalog și cum se poate ajunge într-un loc în care toată lumea poate: A) să fie conștient de ce este acolo și ce este în el și B), cum să obțină acces la el și să îl folosești. Și una dintre cele mai mari provocări, desigur, este găsirea ei, cealaltă provocare mare este să știți ce există acolo și cum să îl accesați.

Poate știu că am zeci de baze de date, dar de fapt nu știu ce este acolo sau cum să aflu ce se află acolo, și atât de invariabil, pe măsură ce descoperim acum în datele de pre-spectacol, ai tendința să mergi în jurul biroului și pune întrebări și țipă de-a lungul pereților cubici și încearcă să-ți dai seama, de multe ori experiența mea este, s-ar putea să găsești chiar că rătăciți la recepție, la recepție și să întrebi dacă cineva știe cine? mă voi duce să vorbesc. Destul de des, nu este întotdeauna IT-ul popular, deoarece nu conștientizează setul de date, deoarece cineva tocmai a creat-o și ar putea fi ceva simplu ca un - destul de des vom găsi un proiect de felul în care se află în mediul IT și managerul de proiect a folosit o foaie de calcul cu toate lucrurile și a obținut o cantitate masivă de informații valoroase în jurul activelor și con și nume și, cu excepția cazului în care știți acel proiect și nu cunoașteți persoana respectivă, nu puteți găsi informațiile respective. Pur și simplu nu este disponibil și trebuie să puneți mâna pe acel fișier original.

Există o frază care s-a arătat cu privire la date și nu sunt neapărat de acord cu aceasta, dar cred că este o drăguță mică și este că o anumită cantitate de oameni consideră că datele sunt uleiul nou și sunt sigur că Vom acoperi asta și în unele aspecte, mai târziu astăzi. Dar ceea ce am observat, cu siguranță făcând parte din acea transformare, este că organizațiile întreprinderilor care au învățat să își valorifice datele au obținut un avantaj semnificativ față de concurenții lor.

A fost o hârtie interesantă de la IBM, în urmă cu aproximativ cinci sau șase ani, și au anchetat aproximativ 4.000 de companii aici în Australia și au luat toate informațiile, toate datele de performanță, toate datele financiare și le-au pus într-un vas de fierbere și apoi au trimis-o la Școala australiană de economie, ei au început de fapt o tendință comună aici, și asta a fost faptul că companiile care au utilizat tehnologia au câștigat invariabil un avantaj atât de competitiv față de colegii și concurenții lor, încât concurenții lor aproape că nu ajung la pas și cred că acesta este foarte mult cazul acum cu date pe care le-am văzut ceea ce oamenii numesc o transformare digitală în care organizațiile care și-au dat seama clar cum pot găsi datele pe care le au, pentru a face datele disponibile și pentru a le pune la dispoziție în unele consumabile foarte ușor moda pentru organizație, fără să știe neapărat întotdeauna de ce organizația ar putea avea nevoie de ea și să obțină un avantaj semnificativ asupra concurenților.

Am câteva exemple pe acest slide, pe care le puteți vedea. Singura mea linie este că întreruperea pe scară largă în aproape toate sectoarele industriei este, după părerea mea, determinată de date și, dacă tendințele actuale trebuie să treacă, părerea mea este că tocmai tocmai am obținut a început pentru că atunci când brandurile de lungă durată se trezesc în cele din urmă, ceea ce înseamnă acest lucru și vor intra în joc, vor intra în joc cu ridicata. Când unii dintre principalii comercianți de retail care au munți de date încep să aplice unele analize istorice asupra datelor, dacă știu că există, atunci unii dintre jucătorii online vor primi un apel de trezire.

Dar, cu multe dintre cele mai multe dintre aceste mărci, vreau să spun că avem pe Uber care este cea mai mare companie de taxi din lume. Nu dețin taxiuri, deci ce le face magice, care sunt datele lor? Airbnb, cel mai mare furnizor de spații de cazare, avem WeChat, cea mai mare companie de telefonie din lume, dar nu au nicio infrastructură reală, nici telefoane mobile, nici linii telefonice. Alibaba, cel mai mare retailer de pe planetă, dar nu dețin niciunul din inventar. , cea mai mare companie de media din cuvânt. Cred că la ultimul număr au avut acum 1,4 miliarde de utilizatori de date active, ceea ce este un număr neplăcut. Nu este nicăieri aproape - cred că cineva a afirmat că un sfert din planetă este de fapt acolo în fiecare zi, și totuși aici este un furnizor de conținut care nu creează conținutul, toate datele pe care le servesc nu sunt create de ei, ci sunt create de către abonați și cu toții cunoaștem acest model.

SocietyOne, despre care este posibil sau nu ați auzit, este o marcă locală, cred că în câteva țări este o bancă care de fapt acordă împrumuturi de la egal la egal, așa că, cu alte cuvinte, nu are bani. Tot ce face este să administreze tranzacțiile și datele sunt sub ele. Netflix, suntem cu toții foarte familiari cu asta. Aici este un singur liner interesant. Când Netflix a putut fi folosit în mod legal în Australia, când a fost anunțat oficial, nu ați fost nevoiți să utilizați un VPN pentru a ajunge la el, mulți oameni din întreaga lume tind să - dacă nu puteți ajunge la el în zona dvs. locală - când Netfix a fost lansat în Australia, a mărit lățimea de bandă internațională pe legăturile noastre de internet cu 40 la sută, astfel încât a dublat aproape peste noapte utilizarea internetului în Australia, printr-o singură aplicație, o singură aplicație găzduită de cloud care nu face altceva decât să joace cu date. Este doar o statistică neplăcută.

Și, bineînțeles, suntem cu toții familiarizați cu Apple și Google, dar acestea sunt cele mai mari companii de software de pe planetă, dar nu scriu de fapt aplicațiile. Care este lucrul consecvent cu toate aceste organizații? Ei bine, sunt date și nu au ajuns acolo pentru că nu știau unde sunt datele lor și nu știau să le catalogheze.

Ceea ce descoperim acum este că există această nouă clasă de active complet denumită date, iar companiile se trezesc la ea. Dar ei nu au întotdeauna instrumentele și know-how-ul și, de aceea, pentru a planifica toate aceste date, pentru a cataloga toate aceste date și a le pune la dispoziție, dar am constatat că companiile care nu au aproape active fizice au câștigat o valoare ridicată pe piață în timp record. prin intermediul acestei noi clase de active de date. Așa cum am spus, unii dintre jucătorii vechi se trezesc acum și asta îl aduc cu siguranță.

Sunt un mare fan de a lua folk pe un pic de călătorie, așa că în optsprezece sute, la sfârșitul optsprezece sute, și veți fi mai mult decât familiarizați cu acest lucru pe piața din SUA, s-a dovedit că pentru a rula un recensământ în fiecare an sau ceva, cred că le-au condus la fiecare zece ani în acel moment, dar dacă veți efectua un recensământ în fiecare an, puteți dura până la opt sau nouă ani pentru a efectua analiza datelor. S-a dovedit că acel set de date a fost lăsat în cutii în locuri din hârtie și aproape nimeni nu a putut găsi. Pur și simplu au continuat să extragă aceste rapoarte, dar datele reale au fost foarte greu de obținut, avem o situație similară cu un alt moment semnificativ din lume, în jurul anilor '40, cu cel de-al doilea război mondial, iar acest lucru este parcul Bletchley Bombe spelat BOMBE , și a fost un instrument analitic masiv de zdrobire a numărului, care ar urma să treacă prin seturi de date mici și să găsească semnale în el și să fie utilizat pentru a ajuta codurile de fisurare prin Enigma.

Acest lucru a fost din nou, în esență, un dispozitiv conceput, nu foarte mult pentru catalogare, ci pentru etichetarea și harta datelor și a face posibilă preluarea tiparelor și găsirea acestora în seturile de date, în acest caz, rup coduri, găsiți chei și fraze și găsiți Acestea le sunt în mod regulat în seturile de date și astfel am trecut prin această călătorie de a găsi lucrurile în date și de a conduce către catalogarea datelor.

Și atunci au apărut aceste lucruri, aceste rachete masive de mașini low-cost, doar mașini în afara raftului. Și am făcut câteva lucruri foarte interesante, iar unul dintre lucrurile pe care le-am făcut cu ele este că am construit clustere cu costuri foarte mici, care ar putea începe indexarea planetei și foarte faimos aceste mari mărci care au venit și au plecat, dar probabil că Google este cea mai obișnuită casă marca despre care am auzit cu toții - a devenit un veritabil și știi că ai succes atunci când marca ta devine verb. Însă ceea ce Google ne-a învățat, fără să ne dăm seama, posibil în lumea afacerilor, este că au reușit să indice întreaga planetă la un anumit nivel și să catalogheze datele care erau în întreaga lume și să o pună la dispoziție într-un mod foarte ușor, o formă convenabilă într-o formulă minusculă de o singură linie, o pagină web cu aproape nimic pe ea și tastați interogarea dvs., merge și o găsește pentru că deja au târât planeta, au indexat-o și au pus-o la dispoziție cu ușurință.

Și ce am observat a fost: „Bine atârnați, nu facem asta în organizații - de ce este asta? De ce avem o organizație care poate face o mapare a întregii planete și o poate indexa, crawl și indexa, și a o pune la dispoziție, o putem căuta, apoi faceți clic pe lucrul care urmează să o găsească, cum să facem? nu ai făcut asta intern? ”Așadar, există multe din aceste rafturi de mașini din întreaga lume care fac asta pentru intraneturi și găsesc lucruri, dar totuși vin într-adevăr tocmai cu ideea de a trece dincolo de pagina web tradițională, sau un server de fișiere.

În loc să intri acum în următoarea generație a catalogului de date în mai multe moduri, descoperirea accesului la date prin note post-it și conversații cool water nu mai este o metodă adecvată pentru descoperirea și catalogarea datelor și, de fapt, nu cred că a fost vreodată . Nu mai putem conduce toată această provocare către oameni care doar transmit note, postează note și vorbesc despre asta. Suntem bine și cu adevărat dincolo de zona în care această abordare de ultimă generație a catalogării datelor a venit și a dispărut. Trebuie să punem brațele în jurul ei. Dacă aceasta ar fi o problemă ușoară, am fi rezolvat-o deja în multe feluri mai devreme, dar cred că nu este o problemă ușoară, doar indexarea și apelarea datelor este doar o parte a acesteia, știind ce există în date și construind metadate. în jurul a ceea ce descoperim, apoi punându-l la dispoziție într-o formă ușoară, consumabilă, în special pentru autoservire și analiză. Încă este o problemă de rezolvat, dar multe părți ale puzzle-ului în cinci ani sunt bine rezolvate și disponibile.

După cum știm, oamenii care cataloghează datele sunt o rețetă a eșecului, deoarece eroarea umană este una dintre cele mai mari coșmaruri cu care avem de-a face în procesarea datelor și vorbesc în mod regulat despre acest subiect în care, după părerea mea, oamenii care completează formularele de hârtie sunt probabil cel mai mare coșmar avem de-a face cu date mari și analitice, pentru a fi nevoiți să remediem în permanență lucrurile pe care le fac, chiar și la lucruri simple precum datele și câmpurile, oamenii punându-l într-un format greșit.

Dar după cum am spus, am văzut motoarele de căutare pe internet indexând lumea în fiecare zi, așa că acum ne facem ideea că asta se poate face pe seturile de date de afaceri în procesul de descoperire, iar instrumentele și sistemele sunt acum ușor disponibil pe măsură ce ești pe cale să înveți azi. Așa că trucul, în opinia mea, este selectarea instrumentelor potrivite, cele mai bune instrumente pentru job. Și mai adecvat pe deasupra, găsirea părții corecte pentru a vă ajuta să începeți pe această cale. Și cred că vom auzi despre asta astăzi, dar înainte să facem asta, o să trec la colegiul meu, Robin Bloor și îi voi asuma despre subiect. Robin, pot să vă transmit?

Robin Bloor: Da, cu siguranță că poți. Să vedem dacă funcționează, da, da. Bine, vin dintr-o altă direcție decât Dez, într-adevăr, dar voi ajunge în același loc. Este vorba despre conectarea la date, așa că m-am gândit că voi parcurge realitatea conectării la date, punct cu punct, într-adevăr.

Există faptul că datele sunt mai fragmentate decât au fost vreodată. Volumul de date crește fenomenal, dar, de fapt, diferitele surse de date cresc, de asemenea, într-un ritm incredibil și, prin urmare, datele sunt tot mai fragmentate tot timpul. Dar din cauza aplicațiilor analitice în special - dar acestea nu sunt singurele aplicații - avem un motiv foarte bun pentru a ne conecta la toate aceste date, așa că suntem blocați într-un loc dificil, suntem blocați într-o lume cu date fragmentate, și există date în date cum îl numea Dez, noul ulei.

Despre date, ei bine trăiau pe discul rotativ, fie în sisteme de fișiere, fie în baze de date. Acum trăiește într-un mediu mult mai variat, locuiește în sisteme de fișiere, dar trăiește și în zilele noastre, în cazuri Hadoop, sau chiar și în cazuri Spark. Trăiește în mai multe specii de baze de date. Nu cu mult timp în urmă, am făcut un fel de baze de date relaționale standardizate, bine știți că a ieșit pe fereastră în ultimii cinci ani, pentru că este nevoie de baze de date de documente și este nevoie de baze de date grafice, așa că știți, jocul are schimbat. Așa că a trăit pe discul rotativ, dar acum trăiește pe SSD. Cea mai recentă cantitate de SSD - cu siguranță cea mai recentă unitate SSD iese de la Samsung - douăzeci de gigabyte, ceea ce este uriaș. Acum trăiește în memorie, în sensul că copia primă a datelor poate fi în memorie, mai degrabă decât pe disc, nu am mai folosit pentru a construi sisteme de genul acesta; facem acum. Și trăiește în nor. Ceea ce înseamnă că poate trăi în oricare dintre aceste lucruri, în nor, nu veți ști neapărat unde este într-un nor, veți avea doar adresa sa.

Doar pentru a ridica acasă punctul, Hadoop a eșuat până acum ca un magazin de date extensibil. Am sperat că va deveni un depozit de date extensibil la scară largă și va deveni doar un singur sistem de fișiere pentru toate și s-ar întâmpla - curcubeele ar apărea pe cer, practic, iar unicornii vor dansa și nu s-a întâmplat nimic. Ceea ce înseamnă că ajungem cu o problemă a transportului de date și nu există uneori necesitatea transportului de date, dar este și o dificultate. Datele au într-adevăr gravitate în zilele noastre, odată ce ai intrat în multi-terabyte de date, preluându-le și aruncându-le, genul de cauze apar în rețeaua ta sau apar în diverse locuri. Dacă doriți să transportați date în jurul valorii, calendarul este un factor. Există aproape întotdeauna, în zilele noastre, câteva limite pentru cât timp trebuie să obțineți un lucru, o informație dintr-un loc în alt loc. Există ceea ce ne-am gândit ca ferestre de lot, când aparatul era inactiv și, oricât de multe date ai avea, poți doar să îl arunci și totul ar putea fi rezolvat. Ei bine, a dispărut, trăim într-o lume mult mai reală. Prin urmare, sincronizarea este un factor. De îndată ce doriți să mutați datele, deci dacă datele au o gravitate, probabil că nu o puteți muta.

Gestionarea datelor este un factor în sensul că de fapt trebuie să gestionați toate aceste date, nu obțineți asta gratuit, iar replicarea poate fi necesară pentru a obține de fapt datele pentru a face treaba pe care trebuie să o facă, deoarece poate nu fii oriunde ai pus-o. Este posibil să nu dispună de resurse suficiente pentru a realiza procesarea normală a datelor. Deci, datele sunt replicate și datele sunt replicate mai mult decât v-ați imagina. Cred că cineva mi-a spus în urmă cu mult timp că datele medii sunt replicate de cel puțin două ori și jumătate. ESB-urile sau Kafka prezintă o opțiune pentru fluxul de date, dar astăzi necesită arhitectură. În zilele noastre trebuie să vă gândiți într-un fel sau altul, la ce înseamnă de fapt să aruncați datele. Prin urmare, accesarea datelor acolo unde este, este de obicei de preferat, atâta timp cât, desigur, puteți obține performanțele de care aveți nevoie atunci când efectuați datele necesare și asta depinde de con. Deci, oricum este o situație dificilă. În ceea ce privește interogările de date, obișnuiam să ne gândim în termeni de SQL, am venit într-adevăr acum, știți, diferite forme de interogări, SQL da, dar adiacente, de asemenea, interogări grafice, Spark este doar un exemplu de a face grafic , deoarece, de asemenea, trebuie să facem căutări, mai mult decât am făcut vreodată, de asemenea, regex tipul de căutări, ceea ce este într-adevăr complicate căutări de tipare, și potrivire a modelelor autentice, toate aceste lucruri sunt de fapt boboci. Și toate sunt utile pentru că vă obțin ceea ce căutați sau vă pot obține ceea ce căutați.

Zilele de interogare acoperă mai multe date, așa că nu a făcut întotdeauna acest lucru și de multe ori performanța este îngrozitoare dacă faci asta. Deci, depinde de circumstanțe, dar oamenii se așteaptă să poată interoga date din mai multe surse de date, astfel federația de date de un fel sau altul devine din ce în ce mai actuală. Virtualizarea datelor, care este un mod diferit de a face, în funcție de performanță, este, de asemenea, foarte frecventă. Interogările de date sunt de fapt o parte a unui proces, nu întregul proces. Este demn de subliniat faptul că, dacă te uiți la performanțele analitice, analiticele reale pot dura mult mai mult decât culegerea de date, deoarece asta depinde de circumstanțe, dar interogările de date sunt o necesitate absolută dacă vrei să faci orice un fel de analiză pe mai multe surse de date și, pur și simplu, trebuie să ai într-adevăr capabilități care să se întindă.

Deci despre cataloage.Cataloagele există dintr-un motiv, cel puțin spunem că, știi, este, avem directoare și avem scheme în baze de date, și avem fiecare catalog și avem oriunde te-ai duce, vei găsi un loc și atunci vei efectua constată că există un fel de catalog, iar catalogul global unificat este o idee atât de bună, evident. Dar foarte puține companii au așa ceva. Îmi aduc aminte, încă din două mii de ani - panică de două mii de ani - îmi aduc aminte că comuniștii nu au putut chiar să depisteze câte executabile aveau, nu mă interesează câte magazii de date diferite aveau și probabil este cazul acum, tu știu, că majoritatea companiilor nu știu activ în sens global, ce date au. Însă, este în mod evident din ce în ce mai necesar să existe un catalog global sau cel puțin să avem o imagine globală a ceea ce se întâmplă din cauza creșterii surselor de date și a creșterii continue a aplicațiilor și este deosebit de necesar pentru analitice, pentru că și tu într-un fel, și există alte probleme aici, cum ar fi linia și problemele cu datele, și este necesar pentru securitate, multe aspecte ale guvernării datelor, dacă nu știi cu adevărat ce date ai, ideea că o să guverneze este doar absurd. Deci, în acest sens, toate datele sunt catalogate într-un fel, este doar un fapt. Întrebarea este dacă catalogul este coerent și, de fapt, ce poți face cu acesta. Așa că voi trece înapoi la Rebecca.

Rebecca Jozwiak: Bine, mulțumesc Robin. Următorul l-am primit pe David Crawford de la Alation, David am să merg înainte și să-ți trec mingea și poți să o iei.

David Crawford: Mulțumesc foarte mult. Apreciez foarte mult că m-ai avut în acest spectacol. Cred că voi începe acest lucru, așa că cred că rolul meu aici este să iau o parte din acea teorie și să văd cum se aplică de fapt și rezultatele pe care le putem conduce la clienții reali și astfel puteți vedea câteva pe diapozitiv, vreau să vorbesc despre ce rezultate vom putea vedea în analitice, eventual, îmbunătățiri. Deci, pentru a motiva discuția, vom discuta despre cum au ajuns acolo. Așadar, am norocul să ajung să lucrez destul de îndeaproape cu o mulțime de oameni cu adevărat deștepți, acești clienți și vreau să subliniez doar câțiva care au reușit să măsoare efectiv și să vorbesc despre modul în care un catalog de date a avut impact asupra analistului lor flux de lucru. Și doar pentru a rămâne pe scurt în față, cred că unul dintre lucrurile pe care le vedem schimbate, cu cataloagele de date versetele soluțiilor mediate anterior și unul dintre modurile în care relațiile se gândesc cu adevărat la soluțiile pe care le-am pus laolaltă, este să pornim de la analiști. și lucrați înapoi. Să spunem, să facem acest lucru pentru a permite productivitatea analiștilor. Spre deosebire de doar conformitatea sau spre a avea doar un inventar, facem un instrument care face analistii mai productivi.

Așadar, când vorbesc cu un om de știință de date la compania de servicii financiare Square, există un tip, Nick, care ne povestea despre cum este al lui, obișnuia să ia câteva ore pentru a găsi setul de date adecvat pentru a începe un raport, acum el poate faceți-o în câteva secunde folosind căutarea la cota de piață, am discutat cu CTO-ul lor care și-a atras analiștii care foloseau Square, scuzați-mă, folosea Alation, pentru a afla care sunt ei, ce beneficii au văzut și au raportat un 50 creșterea procentuală a productivității și că, unul dintre cei mai importanți retaileri din lume, eBay, au peste o mie de oameni care fac analize SQL în mod regulat și lucrez destul de strâns cu Deb Says, care este proiectul. manager în echipa lor de instrumente de date și a descoperit că atunci când solicitanții adoptă Alation, adoptă un catalog, ei văd dublul vitezei de scriere a noilor întrebări în baza de date.

Așadar, acestea sunt rezultate reale, aceștia sunt oameni care aplică de fapt catalogul în organizația lor și vreau să vă duc prin ceea ce este nevoie pentru a fi înființat. Cum se înființează un catalog într-o companie și poate cel mai important lucru de spus, este că multe dintre acestea se întâmplă automat, așa că Dez a vorbit despre sisteme, despre învățarea despre sisteme și asta este exact ceea ce face un catalog de date modern. Așa că instalează Alation în centrul lor de date și apoi îl conectează la diverse surse de metadate din mediul lor de date. Mă voi concentra puțin asupra bazelor de date și a instrumentelor de BI - din cele două dintre acestea vom extrage metadate tehnice, practic despre ceea ce există. Nu, deci ce tabele? Ce rapoarte? Care sunt definițiile raportului? Astfel, extrag metadatele tehnice și o pagină de catalog este creată automat pentru fiecare obiect din aceste sisteme, apoi extrag și stratează deasupra metadatelor tehnice, formează stratul deasupra datelor de utilizare. Acest lucru se realizează în principal citind jurnalele de interogare din baza de date, iar aceasta este o sursă de informații cu adevărat interesantă. Deci, de fiecare dată când un analist scrie o interogare, ori de câte ori un instrument de raportare, indiferent dacă este crescut acasă sau în afara raftului, dacă un instrument de raportare rulează o interogare pentru a actualiza tabloul de bord, atunci când o aplicație rulează o interogare pentru a insera date pentru a opera pe un set de date - toate aceste lucruri sunt capturate în jurnalele de interogare a bazelor de date. Indiferent dacă aveți un catalog sau nu, acestea sunt capturate în jurnalul de interogare cu baza de date. Ce poate face un catalog de date și, mai ales, ce poate face catalogul Alations, este să citească acele jurnaluri, să solicite interogările din interiorul acestora și să creeze un grafic de utilizare cu adevărat interesant, bazat pe acele jurnaluri, și le aducem în joc pentru a informa viitorii utilizatori a datelor despre modul în care utilizatorii din trecut au utilizat-o.

Deci, aducem toate aceste cunoștințe într-un catalog și doar pentru a face acest lucru real, acestea sunt integrările care sunt deja dislocate la clienți, așa că am văzut Oracle, Teradata, Redshift, Vertica și o mulțime de alte baze de date relaționale În lumea Hadoop, există o gamă de SQL pe Hadoop, un fel de tipuri relaționale, de magazine meta în partea de sus a sistemului de fișiere Hadoop, Impala, Tez, Presto și Hive, am văzut și succes cu furnizorii privați de cloud Hadoop precum Altiscale, iar noi de asemenea, s-au putut conecta la serverele Tableau, serverele MicroStrategy și indexarea tablourilor de bord de acolo, precum și integrări cu instrumente de diagramă pentru știința datelor precum Plotly.

Așadar, ne conectăm la toate aceste sisteme, am conectat aceste sisteme la clienți, am atras metadatele tehnice, am tras datele de utilizare și am sortat automat catalogul de date, dar în acest fel, noi centralizați cunoștințele, dar doar centralizați lucrurile într-un catalog de date, nu oferă de la sine acele impulsuri de productivitate minunate despre care am vorbit cu eBay, Square și cota de piață. Pentru a face acest lucru, trebuie să schimbăm modul în care ne gândim despre furnizarea de cunoștințe analiștilor. Una dintre întrebările pe care le pun să se pregătească pentru aceasta, a fost „Cum are efect efectul catalogului asupra fluxului de lucru al unui analist?”

La asta ne petrecem toată ziua gândindu-ne și, pentru a vorbi despre această schimbare în gândire, la un model versus un model de tragere, am vrut să fac o analogie rapidă la cum era lumea înainte și după ce am citit pe un Kindle. Așadar, este doar o experiență pe care unii dintre voi o puteți avea, când citiți o carte fizică, întâlniți un cuvânt, nu sunteți sigur că știți definiția acestui cuvânt super bine, poate o puteți ghici din con, nu este foarte probabil că urmează să te ridici de pe canapea, să te duci la raftul de cărți, să-ți găsești dicționarul, să-l prajești și să te îndrepți la locul potrivit din lista alfabetică a cuvintelor pentru a te asigura că, da, ai avut această definiție corectă și știi nuanțele acesteia. Deci nu se întâmplă cu adevărat. Așadar, cumpărați o aplicație Kindle și începeți să citiți cărți acolo și vedeți un cuvânt despre care nu sunteți absolut sigur și îl atingeți. Brusc, chiar în același ecran, este definiția dicționarului cuvântului, cu toate nuanțele sale, diferite exemple de utilizare, și glisați puțin și primiți un articol Wikipedia pe subiectul respectiv, glisați din nou, obțineți un instrument de traducere care îl poate traduce în alte limbi sau din alte limbi și, dintr-o dată, cunoașterea dvs. de limbă este atât de mai bogată, și se întâmplă doar un număr uimitor de ori, în comparație cu când a trebuit să mergeți și trage resursa pentru tine.

Și deci, ce voi argumenta, este că fluxul de lucru pentru un analist și modul în care un analist se va ocupa de documentarea datelor, este de fapt foarte similar cu modul în care un cititor va interacționa cu dicționarul, fie că este unul fizic, sau deși Kindle, și deci ceea ce noi, modul în care am văzut cu adevărat acest impuls de productivitate, nu este deversarea catalogului, ci conectarea acestuia la fluxul de lucru al analistului și, așa, mi-au cerut să fac o demonstrație aici și vreau pentru a face ca accentul acestei prezentări. Dar vreau doar să configurez con pentru demo. Când ne gândim să împingem cunoștințele de date către utilizatori atunci când au nevoie, credem că locul potrivit pentru a face asta, locul în care își petrec timpul și unde fac analiza este un instrument de interogare SQL. Un loc unde scrieți și rulați interogări SQL. Așa că am construit unul, și l-am construit, iar lucrul care este într-adevăr diferit de alte instrumente de interogare este integrarea sa profundă cu catalogul de date.

Deci instrumentul nostru de interogare se numește Alation Compose. Este un instrument de interogare bazat pe web și Îți arăt într-o secundă. Un instrument de interogare bazat pe web care funcționează în toate logo-urile bazei de date pe care le-ați văzut în diapozitivul anterior. Ceea ce voi încerca să demonstrez în special este modul în care informațiile despre catalog ajung la utilizatori. Și o face prin aceste trei feluri diferite. O face prin intervenții și în cazul în care cineva, care este un guvernator de date, un administrator de date sau un fel de administrator, sau de un manager, poate spune: „Vreau să sortez interject cu o notă sau un avertisment în fluxul de lucru și asigurați-vă că este livrat utilizatorilor la momentul potrivit. ”Deci, asta este o intervenție și arată bine asta.

Sugestii inteligente este un mod în care instrumentul folosește toate cunoștințele sale agregate despre catalog pentru a sugera obiecte și părți ale unei interogări în timp ce scrieți. Cel mai important lucru de știut este faptul că profită cu adevărat de jurnalul de interogare pentru a face acest lucru, pentru a sugera lucruri bazate pe utilizare și, de asemenea, pentru a găsi chiar părți ale interogărilor care au fost scrise anterior. Și bine arată asta.

Și apoi previzualizări. Previzualizările sunt, pe măsură ce introduceți numele unui obiect, vă arătăm tot ceea ce știe catalogul sau cel puțin cele mai relevante lucruri pe care le cunoaște catalogul despre acel obiect. Așadar, mostre de date, care le-au folosit anterior, numele și descrierea logică a acelui obiect, vin toate la tine în timp ce scrii, fără să fii nevoit să o ceri.

Așa că, fără să mai vorbesc, voi ajunge la demo și abia voi aștepta să apară. Ceea ce vă voi arăta aici este instrumentul de interogare. Este o interfață dedicată de scriere SQL. Este o interfață separată de catalog, într-un anumit sens. Dez și Robin au vorbit despre catalog și am sărit un pic peste interfața catalogului direct la modul în care este introdus direct în service-ul fluxului de lucru.

Vă arăt aici un loc în care pot tasta SQL, iar în partea de jos veți vedea că avem un fel de informații care apar despre obiectele care făceau referință. Așa că voi începe să tastez o interogare și mă voi opri când voi ajunge la una dintre aceste intervenții. Deci, tipul „selectează”, și vreau anul. Vreau numele. Și voi căuta câteva date despre salarii. Deci, acesta este un set de date despre educație. Are informații despre instituțiile de învățământ superior și mă uit la salariul mediu al facultății într-unul din aceste tabele.

Deci, am tastat de fapt cuvântul „salariu”. Nu este exact în numele coloanei. Folosim atât metadate logice cât și metadate fizice pentru a face sugestii. Și ce vreau să subliniez aici este această casetă galbenă care apare aici. Se spune că există un avertisment pe această coloană. Nu am căutat asta, nu am luat o clasă despre cum să folosesc corect aceste date. Mi-a venit și se pare că este un avertisment cu privire la un acord de confidențialitate care are legătură cu aceste date. Deci, există câteva reguli de divulgare. Dacă voi interoga aceste date, voi scoate datele din acest tabel, ar trebui să fiu atent la modul în care le dezvăluiesc. Deci aveți o politică de guvernare aici. Există câteva provocări ale conformității care fac mult mai ușoară respectarea acestei politici atunci când știu despre aceasta în momentul în care mă uit la date.

Așa că am ajuns să vină la mine și apoi o să mă uit și la școlarizare. Și aici vedem că previzualizările intră în joc. În această coloană de școlarizare, văd - există o coloană de școlarizare în tabelul instituției și văd un profil. Alation merge și trage date de probă din tabele și, în acest caz, arătându-mi ceva care este destul de interesant. Îmi arată distribuția valorilor și îmi arată că valoarea zero a apărut de 45 de ori în eșantion și mai mult decât orice altă valoare. Așa că am o idee că am putea lipsi unele date.

Dacă sunt un analist avansat, atunci acesta ar putea face parte deja din fluxul meu de lucru. Mai ales dacă sunt unul deosebit de meticulos, unde aș face o grămadă de întrebări de profil înainte de timp. Ori de câte ori abordez o nouă informație, mă gândesc întotdeauna care este acoperirea noastră de date. Dar dacă sunt nou la analiza datelor, dacă sunt nou la acest set de date, aș putea presupune că dacă există o coloană, aceasta a fost completată tot timpul. Sau aș putea presupune că dacă nu este completat, nu este zero, nul sau ceva de genul. Dar, în acest caz, avem o mulțime de zero și, dacă aș face o medie, probabil că ar greși, dacă aș presupune doar că acele zero sunt de fapt zero în loc să lipsească date.

Dar Alation, aducând această previzualizare în fluxul de lucru, un fel de vă roagă să aruncați o privire la aceste informații și oferă chiar și un fel de analiști începători o șansă de a vedea că există ceva de remarcat aici despre aceste date. Deci avem previzualizarea respectivă.

Următorul lucru pe care îl voi face este să încerc să aflu din ce tabele să obțin aceste informații. Deci, aici vedem sugestiile inteligente. Totul a mers tot timpul, dar în special aici, nu am tastat chiar și altceva decât să îmi sugereze tabelele pe care aș putea să le folosesc pentru această interogare. Și cel mai important lucru de știut despre acest lucru este că profită de statisticile de utilizare. Așadar, într-un mediu precum, de exemplu, eBay, unde aveți sute de mii de tabele într-o singură bază de date, având un instrument care poate atinge grâul de pe pleavă și folosind aceste statistici de utilizare, este foarte important pentru realizarea acestora sugestii care merită ceva.

Deci, va sugera acest tabel. Când mă uit la previzualizarea, evidențiem de fapt trei dintre coloanele pe care le-am menționat deja în interogarea mea. Știu că are trei, dar nu are numele. Trebuie să obțin numele, așa că o să mă înscriu. Când fac o aderare, acum am din nou aceste previzualizări care să mă ajute să găsesc, unde este tabelul cu numele. Așa că văd că acesta are un nume frumos formatat, cu majuscule corespunzător. Se pare că are un rând cu un nume pentru fiecare instituție, așa că o să mă ocup de asta și acum am nevoie de o condiție de alăturare.

Și deci, aici ceea ce face Alation este din nou să privim înapoi la jurnalele de interogare, văzând vremuri anterioare că aceste două tabele au fost alăturate și sugerează modalități diferite de a le alătura. Încă o dată, există o intervenție. Dacă mă uit la unul dintre acestea, a primit un avertisment care îmi arată că acest lucru ar trebui utilizat doar pentru analiza agregatelor. Probabil va produce un lucru greșit dacă încercați să faceți ceva prin instituție prin instituție. În timp ce acesta, cu ID-ul OPE este aprobat ca o modalitate corectă de alăturare a acestor două tabele dacă doriți date la nivel universitar. Așa că fac asta și este o interogare scurtă, dar am scris întrebarea mea fără să aveți cu adevărat informații despre ce sunt datele. Nu am privit niciodată o diagramă ER a acestui set de date, dar știu destul de multe despre aceste date, deoarece informațiile relevante îmi vin.

Deci, acestea sunt un fel de cele trei moduri prin care un catalog poate, printr-un instrument de interogare integrat, să afecteze direct fluxul de lucru pe măsură ce scrieți întrebări. Însă unul dintre celelalte avantaje ale integrării unui catalog de instrumente de interogare este acela că, atunci când termin interogarea și o salvez, pot pune un titlu de genul „Instituția de școlarizare și salariul facultății” și apoi am un buton aici care îmi permite să-l public doar în catalog. Este foarte ușor pentru mine să mă hrănesc. Chiar dacă nu îl public, acesta este capturat ca parte a jurnalului de interogări, dar atunci când îl public, acesta devine de fapt o parte a modului în care se află locul centralizat unde locuiesc toate cunoștințele de date.

Așadar, dacă fac clic pe Căutare pentru toate interogările din Alation, voi fi luat - și aici veți vedea unele altele din interfața catalogului - Sunt dus la o căutare dedicată de interogare care îmi arată o modalitate de a găsi interogări în întreaga organizație. Și vedeți că interogarea mea recent publicată este în vârf. Și unii s-ar putea observa aici, pe măsură ce surprindem întrebările, surprindem și autorii și stabilim această relație între mine ca autor și aceste obiecte de date despre care știu acum ceva. Și sunt stabilit ca expert în această interogare și pe aceste obiecte de date. Acest lucru este foarte util atunci când oamenii trebuie să meargă să învețe despre date, atunci pot merge să găsească persoana potrivită pentru a învăța. Și dacă sunt de fapt nou pentru date, indiferent că sunt un analist avansat - ca analist avansat, aș putea să mă uit la asta și să văd o mulțime de exemple care să mă inițieze pe un nou set de date. În calitate de cineva care s-ar putea să nu se simtă extrem de priceput cu SQL, pot găsi întrebări pre-făcute care sunt rapoarte de care pot profita.

Iată unul de Phil Mazanett despre scorurile mediei SAT. Faceți clic pe asta și obțin un fel de pagină de catalog pentru interogarea în sine. Vorbește despre un articol care a fost scris care face referire la această interogare, deci există o documentație pe care să o citesc dacă vreau să învăț cum să o folosesc. Și îl pot deschide în instrumentul de interogare făcând clic pe butonul Compune și îl pot rula singur chiar aici fără să îl editez. Și, de fapt, veți vedea un pic din capacitățile noastre ușoare de raportare, în care, atunci când scrieți o interogare, puteți renunța la o variabilă de șablon ca aceasta și creează un mod simplu de a crea un formular pentru a executa o interogare bazată pe o cuplu de parametri.

Deci, asta este ceea ce am pentru demo. Voi reveni la diapozitive.Tocmai pentru a face o recapitulare, am arătat cum un administrator, un guvernator de date, poate interveni plasând avertismente asupra obiectelor care apar în instrumentul de interogare, cum Alation își folosește cunoștințele despre utilizarea obiectelor de date pentru a face sugestii inteligente, cum aduce în profiluri și alte sfaturi pentru îmbunătățirea fluxurilor de lucru ale analiștilor atunci când ating obiecte particulare și cum toate aceste tipuri de feed-uri revin în catalog când sunt scrise noi întrebări.

Evident, sunt un purtător de cuvânt în numele companiei. Voi spune lucruri frumoase despre cataloagele de date. Dacă doriți să auziți direct de la unul dintre clienții noștri, Kristie Allen de la Safeway conduce o echipă de analiști și are o poveste minunată despre o perioadă în care a avut nevoie să bată cu adevărat ceasul pentru a livra un experiment de marketing și cum este întregul ei echipa a folosit Alation pentru a colabora și a se transforma într-adevăr rapid în acel proiect. Așadar, puteți urmări acest link bit.ly pentru a verifica povestea respectivă sau dacă doriți să auziți un pic despre modul în care Alation ar putea aduce un catalog de date în organizația dvs., suntem încântați să creăm o demo personalizată. Mulțumesc mult.

Rebecca Jozwiak: Mulțumesc mult, David. Sunt sigur că Dez și Robin au câteva întrebări înainte de a trece la audiența Q&A. Dez, vrei să mergi mai întâi?

Dez Blanchfield: Absolut. Îmi place ideea acestui concept de interogări publicate și să îl leg înapoi la sursa autorului. Am fost un campion de multă vreme al acestei idei de un magazin de aplicații intern și cred că acesta este un fundament foarte bun pentru a se baza pe asta.

Am ajuns să obțin o informație despre unele organizații pe care le vedeți făcând acest lucru și unele dintre poveștile de succes pe care le-ar fi putut avea cu toată această călătorie, nu numai să vă valorificați instrumentul și platforma pentru a descoperi datele, dar și atunci transformă în jurul lor trăsăturile culturale și comportamentale interne. Acum, aveți acest fel de magazin de aplicații interne, în care aveți posibilitatea de a descărca doar, conceptul în care nu numai că nu îl pot găsi, dar pot începe de fapt să dezvolte mici comunități cu păstrătorii acestor cunoștințe.

David Crawford: Da, cred că am fost surprinși. Credem în valoarea de a împărți interogări, atât din trecutul meu ca manager de produs în Adtech, cât și de la toți clienții cu care am discutat, dar am fost încă surprins de cât de des este unul dintre primele lucruri despre care vorbesc clienții. valoare pe care o scot din Alation.

Efectuam câteva teste ale utilizatorului instrumentului de interogare la unul dintre clienții noștri numit Invoice2go și aveau un manager de produse care era relativ nou și mi-au spus - de fapt mi-a spus, nepromovat în timpul testului de utilizator, „de fapt nu aș scrie SQL, cu excepția faptului că este ușor de făcut de Alation. ”Și, desigur, în funcția de premier, am plecat,„ Ce vrei să spui, cum am făcut asta? ”Și el a spus:„ Ei bine, chiar este doar pentru că eu mă pot conecta și pot vedea toate aceste interogări existente. ”Începând cu o ardezie goală cu SQL este un lucru incredibil de greu de făcut, dar modificând o interogare existentă în care puteți vedea rezultatul pe care îl expuneți și puteți spune:„ Oh , Am doar nevoie de această coloană suplimentară ”, sau„ Am nevoie să o filtrez într-o anumită gamă de date ”, este un lucru mult mai ușor de făcut.

Am văzut un fel de roluri auxiliare, cum ar fi managerii de produse, poate oameni în operațiunile de vânzări, care încep să ridice și care au dorit întotdeauna să învețe SQL și să înceapă să-l ridice folosind acest catalog. Am văzut, de asemenea, că multe companii au încercat să facă un fel de open source. Am încercat să construiesc aceste tipuri de lucruri pe plan intern, acolo unde urmăresc întrebările și le pun la dispoziție și există unele tipuri de provocări dificile pentru a le face utile. a avut un instrument intern pe care l-au numit HiPal, care a capturat toate întrebările scrise pe Hive, dar ceea ce descoperiți este că, dacă nu îndreptați utilizatorii în mod corect, ajungeți doar cu o listă foarte lungă de enunțuri selectate. Și ca utilizator, care încearcă să-mi dau seama dacă o interogare este utilă pentru mine sau dacă este ceva bun, dacă merg doar să cercetez o listă lungă de declarații selecte, îmi va lua mult mai mult să obțin ceva din valoare decât începând de la zero. Ne-am gândit destul de atent la cum să facem un catalog de interogări care să aducă lucrurile potrivite în față și să le ofere într-un mod util.

Dez Blanchfield: Cred că toți parcurgem această călătorie de la o vârstă foarte fragedă, până la vârsta adultă, în multe feluri. O grămadă de tehnologii. Eu, personal, am trecut prin același lucru autentic, cum ar fi, învățând să tai cod. Aș trece prin reviste și apoi cărți, și aș studia la un anumit nivel, și apoi a trebuit să merg și să obțin ceva mai multă pregătire și educație.

Dar, din neatenție, am constatat că, chiar și atunci când mă duceam să predau și să citesc reviste și să citesc cărți și să ceară programe ale altor popoare și să merg la cursuri pe ea, tot am sfârșit învățând la fel de mult de la a face cursurile, precum am vorbit doar cu alte oameni care au avut unele experiențe. Și cred că este o descoperire interesantă, care, acum, când ai adus-o pe analiza datelor, vedea practic aceeași paralelă, că ființele umane sunt în mod destul de inteligente.

Celălalt lucru pe care doresc să-l înțeleg este că, la un nivel foarte înalt, multe organizații vor întreba: „Cât timp durează pentru a ajunge la acel punct?” Care este momentul în care se înțelege momentul în care oamenii îți primesc platforma instalate și au început să descopere tipurile de instrumente? Cât de repede sunt oamenii care văd că acest lucru se transformă într-un moment „imediat” imediat în care își dau seama că nu se mai îngrijorează ROI, deoarece există, dar acum schimbă modul în care își desfășoară activitatea? Și au descoperit o artă pierdută și se așteaptă să poată face ceva cu adevărat, cu adevărat distractiv cu ea.

David Crawford: Da, pot să o ating puțin. Cred că atunci când ne instalăm, unul dintre lucrurile drăguțe, unul dintre lucrurile care le plac oamenilor despre un catalog care este conectat direct în sistemele de date, este că nu începeți gol în cazul în care trebuie să completați pagina prin pagină. Și acest lucru este adevărat pentru soluțiile de date anterioare în care ați începe cu un instrument gol și trebuie să începeți să creați o pagină pentru tot ceea ce doriți să vă documentați.

Deoarece documentăm atât de multe lucruri în mod automat prin extragerea metadatelor, în esență în câteva zile de la instalarea software-ului, puteți avea o imagine a mediului dvs. de date care este cel puțin 80 la sută acolo în instrument. Și apoi cred că de îndată ce oamenii încep să scrie interogări cu instrumentul, acestea sunt salvate automat înapoi în catalog și astfel vor începe să apară și ele.

Nu vreau să fiu prea dornic să o spun. Cred că două săptămâni este o estimare conservatoare destul de bună, la o lună. Două săptămâni până la o lună, estimarea conservatoare a faptului că se întoarce cu adevărat și simți că ai obține valoare din asta, ca și cum ai începe să împărtășești niște cunoștințe și să poți merge acolo și să afli lucruri despre datele tale.

Dez Blanchfield: Este destul de uimitor, într-adevăr, când te gândești la asta. Faptul că unele dintre platformele mari de date pe care le efectuați indexarea și catalogarea vor avea nevoie uneori până la an pentru a pune în aplicare și să se implementeze și să se ridice în mod corespunzător.

Ultima întrebare pe care mi-am primit-o înainte de a-i transmite lui Robin Bloor este legătura dintre conectori. Unul dintre lucrurile care sare imediat la mine este că, evident, ai rezolvat întreaga provocare. Deci, există câteva cuvinte întrebări foarte rapide. Una, cât de repede sunt implementate conectoarele? Evident, începeți cu cea mai mare platformă, cum ar fi Oracles și Teradatas și așa mai departe și DB2s. Dar cât de regulat vedeți conectori noi și la ce perioadă de schimb necesită? Îmi imaginez că ai un cadru standard pentru ei. Și cât de adânc intrați în acele? De exemplu, Oracles și IBM-uri ale lumii, și chiar Tereadata, și apoi unele dintre cele mai populare dintre platformele open-source târzie. Lucrează direct cu tine? O descoperiți voi înșivă? Trebuie să aveți cunoștințe interne pe aceste platforme?

Cum arată felul de a dezvolta un conector și cât de profund te implici în acele parteneriate pentru a te asigura că acești conectori descoperă tot ce poți?

David Crawford: Da, sigur, este o întrebare grozavă. Cred că în cea mai mare parte, putem dezvolta conectori. Cu siguranță am făcut-o atunci când eram un startup mai tânăr și nu aveam clienți. Putem dezvolta conexiunile cu siguranță, fără a avea nevoie de acces intern. Nu obținem niciodată acces special la sistemele de date care nu sunt disponibile public și adesea fără a avea nevoie de informații interioare. Profităm de serviciile de metadate disponibile de sistemele de date în sine. Adesea, acestea pot fi destul de complexe și greu de lucrat. Cunosc în special SQL Server, modul în care gestionează jurnalul de interogare, există mai multe configurații diferite și ceva la care trebuie să lucrați cu adevărat. Trebuie să înțelegeți nuanțele, butoanele și butoanele de apelare pentru a-l configura corect, și asta este un lucru la care lucrăm cu clienții, de când am făcut-o de mai multe ori înainte.

Dar într-o anumită măsură, genul său de API-uri publice disponibile sau interfețe publice disponibile pe care le folosim. Avem parteneriate cu mai multe dintre aceste companii, acesta este, în principal, un motiv de certificare, astfel încât se simt confortabil spunând că lucrăm și, de asemenea, ne pot oferi resurse pentru testare, uneori acces rapid, poate la o platformă care vine să se asigure că lucrăm la noile versiuni.

Pentru a întoarce o nouă conexiune, aș spune din nou, încercând să fie conservator, să spunem de la șase săptămâni la două luni. Depinde de cât de asemănător este. Așadar, unele dintre cele Postgre arată foarte asemănătoare cu Redshift. Redshift și Vertica împărtășesc o mulțime de detalii. Deci putem profita de aceste lucruri. Dar da, șase săptămâni până la două luni ar fi corect.

De asemenea, avem API-uri, astfel încât - ne gândim la Alation ca și o platformă de metadate, așa că, dacă nu există date disponibile pentru a ajunge la noi și a apuca automat, există modalități prin care poți să scrii singur conectorul și să îl împingi în sistemul nostru astfel că tot se centralizează într-un singur motor de căutare.

Dez Blanchfield: Fantastic. Apreciez asta. Așa că urma să-i predea lui Robin, pentru că sunt sigur că are și o multitudine de întrebări. Robin?

Rebecca Jozwiak: Robin poate fi mut.

Dez Blanchfield: Te-ai mutat.

Robin Bloor: Da, sigur. Scuze, m-am mutat. Când implementați acest lucru, care este procesul? Sunt curioasă pentru că pot fi multe date în multe locuri. Deci, cum funcționează asta?

David Crawford: Da, sigur. Intrăm, în primul rând, un proces IT pentru a ne asigura că serverele noastre sunt furnizate, asigurându-ne că conexiunile de rețea sunt disponibile, că porturile sunt deschise, astfel încât să putem accesa sistemele. Cu toții știu adesea cu ce sisteme doresc să înceapă. Știind în interiorul unui sistem de date, care - și uneori, de fapt, îi vom ajuta. Ei bine, ajută-i să meargă să arunce o privire inițială la jurnalul de interogare pentru a înțelege cine folosește ce și câți utilizatori au pe un sistem. Așa că ajutați-vă să aflați unde - adesea, dacă au primit sute sau mii de persoane care ar putea fi conectate la baze de date, de fapt nu știu unde se loghează, așa că putem afla din jurnalele de interogare câte conturi de utilizator unice efectiv vă conectați și executați interogări aici într-o lună sau ceva mai mult.

Deci putem profita de asta, dar deseori doar pe cele mai importante. Îi punem la punct și apoi există un proces de a spune: „Să acordăm prioritate”. Există o serie de activități care se pot desfășura în paralel. M-aș concentra asupra instruirii pentru utilizarea instrumentului de interogare. Odată ce oamenii încep să utilizeze instrumentul de interogare, în primul rând, mulți oameni adoră faptul că este doar o singură interfață pentru toate sistemele lor diferite. De asemenea, le place faptul că bazat pe web nu implică nicio instalare dacă nu dorește. Din punct de vedere al securității, le place să aibă un singur punct de intrare, dintr-un punct de vedere al rețelei, între un fel de rețea IT corporală și centrul de date unde trăiesc sursele de date de producție. Și astfel, vor configura Alation ca instrument de interogare și vor începe să utilizeze Compose ca punct de acces pentru toate aceste sisteme.

Așadar, odată ce se întâmplă asta, ceea ce ne concentrăm acolo pe formare, este să înțelegem care sunt unele dintre diferențele dintre un instrument de interogare bazat pe web sau un server față de unul pe care îl ai pe desktop și unele dintre nuanțele de utilizare a acestuia. Și, în același timp, ceea ce bine încercați să faceți este să identificați cele mai valoroase date, profitând din nou de informațiile din jurnalul de interogare și spunând: „Hei, s-ar putea să doriți să intrați și să ajutați oamenii să înțeleagă aceste lucruri. Să începem să publicăm interogări reprezentative pe aceste tabele. ”Aceasta este uneori cea mai eficientă metodă de a-i face pe oameni să se învârte rapid. Permiteți să vă uitați la propriul istoric de interogare, să publicați aceste lucruri astfel încât să apară ca primele interogări. Când oamenii se uită la o pagină de tabel, pot vedea toate întrebările care au atins acea tabelă și pot începe de acolo. Și apoi permiteți să adăugați titluri și descrieri la aceste obiecte, astfel încât să fie mai ușor de găsit și de căutat, astfel încât să cunoașteți câteva dintre nuanțele despre cum să îl utilizați.

Ne asigurăm că aruncăm o privire detaliată asupra jurnalului de interogare, astfel încât să putem genera linie. Unul dintre lucrurile pe care le facem este să ne uităm prin jurnalul de interogări în momentele în care datele se mută de la un tabel la altul, iar asta ne permite să punem una dintre cele mai frecvente întrebări despre un tabel de date. De unde a venit acest lucru? Cum am încredere în ea? Și deci ceea ce putem arăta nu este doar din ce alte tabele a provenit, ci cum a fost transformat pe parcurs. Din nou, acesta este un fel de alimentat de jurnalul de interogare.

Așadar, ne asigurăm că acele lucruri sunt configurate și care intrau în linie în sistem și vizau cele mai valoroase și cele mai ridicate piese de metadate pe care le putem stabili pe paginile tabelului, astfel încât atunci când vei căuta, găsești ceva util.

Robin Bloor: Bine. Cealaltă întrebare - există o mulțime de întrebări din partea publicului, așa că nu vreau să ocup prea mult timp aici - cealaltă întrebare care vine în minte este doar durerea. O mulțime de software cumpărate pentru că oamenii au, într-un fel sau altul, dificultăți cu ceva. Deci care este punctul comun de durere care îi conduce pe oameni către Alation?

David Crawford: Da. Cred că sunt câteva, dar cred că unul dintre cele pe care le auzim destul de des este analistul la bord. „Va trebui să angajez 10, 20, 30 de persoane pe termen scurt care vor trebui să prezinte noi informații din aceste date, cum vor ajunge să se accelereze?” Deci, cu siguranță, analistul de la bord este ceva ce abordăm. Există, de asemenea, scutirea analiștilor superiori de a-și petrece tot timpul să răspundă întrebărilor altor oameni despre date. Asta este și foarte frecvent. Și ambele sunt în esență probleme de educație.

Și atunci aș spune că un alt loc pe care îl vedem pe oameni care adoptă Alation este atunci când vor să creeze un mediu de date complet nou pentru care cineva să lucreze. Vor să facă publicitate și să comercializeze acest lucru intern pentru ca oamenii să profite. Apoi, transformarea în Alation în fața acestui nou mediu analitic este foarte atrăgătoare. A primit documentația, a primit un singur punct de introducere la - un singur punct de acces la sisteme, și deci este un alt loc în care oamenii vor veni la noi.

Robin Bloor: Bine, te voi transmite la Rebecca, deoarece publicul încearcă să ajungă la tine.

Rebecca Jozwiak: Da, avem foarte multe întrebări de audiență foarte bune aici. Iar David, acesta a fost prezentat special pentru tine. Este de la cineva care aparent are experiență cu oamenii într-un fel de întrebări greșite și spune un fel că, cu cât autorizăm utilizatorii, cu atât este mai greu să guverneze utilizarea responsabilă a resurselor de calcul. Deci, vă puteți apăra împotriva propagării de fraze de întrebare greșite, dar comune?

David Crawford: Da, văd această întrebare. Este o mare întrebare - una pe care o primim destul de des. Am văzut durerea singură la companiile anterioare, unde trebuie să instruiți utilizatorii. De exemplu, „Acesta este un tabel de jurnal, jurnalele sale au început de ani de zile. Dacă aveți de gând să scrieți o întrebare pe acest tabel, trebuie să vă limitați până la dată. ”Deci, de exemplu, este o pregătire pe care am parcurs-o la o companie anterioară înainte de a avea acces la baza de date.

Avem câteva modalități prin care încercăm să abordăm acest lucru. Aș spune că cred că datele de jurnal de interogare sunt cu adevărat valoroase unic pentru a le aborda. Oferă o altă perspectivă în raport cu ceea ce face baza de date intern cu planificatorul de interogări. Și ceea ce facem este, una dintre acele intervenții - avem intervențiile manuale pe care le-am arătat și asta este util, nu? Deci, într-o anumită aderare, de exemplu, puteți spune: „Permiteți acest lucru”. Va avea un steag roșu mare atunci când apare în sugestia inteligentă. Deci, acesta este un mod de a încerca să ajungă la oameni.

Un alt lucru pe care îl facem este automatizat la intervențiile în timp de execuție. Thatll va folosi de fapt arborele de interogare al interogării înainte de a o rula pentru a vedea, include un anumit filtru sau alte câteva lucruri pe care le facem și noi acolo. Dar unul dintre cele mai valoroase și cel mai simplu de explicat este, include un filtru? Deci, ca acel exemplu pe care tocmai l-am dat, acest tabel de jurnal, dacă aveți de gând să-l interogați, trebuie să aibă un interval de date, puteți specifica în pagina de tabel acolo că vă mandatați ca filtrul pentru intervalul de date să fie aplicat. Dacă cineva încearcă să ruleze o interogare care nu include acel filtru, de fapt, îi va opri cu un avertisment mare și va spune: „Probabil ar trebui să adăugați ceva SQL care arată așa la interogare.” Ei pot continua dacă vor . Nu aveam de gând să-i interzicem complet să o folosească - și o întrebare, de asemenea, trebuie să execute interogări. Dar am pus o barieră destul de mare în fața lor și le oferim o sugestie, o sugestie concretă aplicabilă pentru a modifica interogarea pentru a îmbunătăți performanța lor.

De asemenea, facem automat acest lucru în unele cazuri, din nou prin observarea jurnalului de interogare. Dacă vedem că un procent foarte mare de întrebări de pe acest tabel profită de un anumit filtru sau de o anumită clauză de alăturare, atunci este bine să apară. Ei bine, promovează asta la o intervenție. De fapt, mi s-a întâmplat pe un set intern de date. Avem date despre clienți și avem ID-uri de utilizator, dar setul de ID de utilizator, din moment ce este - avem ID-uri de utilizator la fiecare client. Nu este unic, așa că trebuie să-l asociați cu un ID de client pentru a obține o cheie de unire unică.Și scriam o interogare și am încercat să analizez ceva și a apărut și am spus: „Hei, toți ceilalți par să se alăture acestor tabele atât cu ID-ul client, cât și cu ID-ul de utilizator. Ești sigur că nu vrei să faci asta? ”Și de fapt m-a oprit să fac analize incorecte. Deci, funcționează atât pentru precizia analizei, cât și pentru performanță. Deci este un fel de cum luăm această problemă.

Rebecca Jozwiak: Asta mi se pare eficient. Ați spus că nu veți bloca neapărat oamenii să acopere resurse, dar învațați-i că ceea ce fac pot să nu fie cel mai bun, nu?

David Crawford: Presupunem întotdeauna că utilizatorii nu sunt răuvoitori - le acordăm cele mai bune intenții - și încercăm să fim destul de deschiși în acest mod.

Rebecca Jozwiak: Bine. Iată o altă întrebare: „Care este diferența dintre un manager de catalog, ca în cazul soluției dvs. și un instrument MDM? Sau, de fapt, se bazează pe un principal diferit prin lărgirea alegerii tabelelor de interogare, în timp ce MDM ar face-o automat, dar cu același principal de bază al colectării de metadate. "

David Crawford: Da, cred că atunci când mă uit la soluțiile MDM tradiționale, diferența primară este una filozofică. Totul este despre cine este utilizatorul. Așa cum am spus la începutul prezentării mele, Alation, cred că, atunci când am fost înființați, am fost fondați cu scopul de a permite analiștilor să producă mai multe informații, să le producă mai repede, să fie mai exacti în ideile pe care legume și fructe. Nu cred că acesta a fost vreodată obiectivul unei soluții tradiționale MDM. Aceste soluții tind să fie orientate către persoanele care trebuie să producă rapoarte cu privire la datele care au fost capturate la CSC sau intern pentru un alt tip de audit. Poate, uneori, să permită analiștilor, dar mai des, dacă va permite un practicant în activitatea sa, este mai probabil să activeze un arhitect de date precum DBA.

Când vă gândiți la lucrurile din punctul de vedere al unui analist, atunci când începeți să construiți un instrument de interogare pe care un instrument MDM nu l-ar face niciodată. Atunci când începi să te gândești la performanță, precum și la acuratețe, precum și să înțelegi ce date se referă la nevoia mea de afaceri. Toate aceste lucruri sunt lucruri care apar în mintea noastră atunci când proiectăm instrumentul. Intră în algoritmii de căutare, intră în aspectul paginilor de catalog și în capacitatea de a contribui la cunoștințe din toată organizația. Se intră în faptul că am construit instrumentul de interogare și că am construit catalogul direct în el, așa că cred că vine cu adevărat din asta. Ce utilizator aveți mai întâi în minte?

Rebecca Jozwiak: Bine, bine. Asta a ajutat într-adevăr să o explice. care murea să pună mâna pe arhive pentru că trebuia să plece, dar își dorea cu adevărat răspunsul la întrebarea sa. El a spus că a fost menționat la început că există mai multe limbi, dar SQL este singura limbă folosită în componenta Compose?

David Crawford: Da asta e adevărat. Și unul dintre lucrurile pe care le-am observat, întrucât am asistat la explozia diferitelor tipuri de baze de date, a bazelor de date de documente, a bazelor de date grafice, a magazinelor de valori cheie, este că acestea sunt cu adevărat puternice pentru dezvoltarea aplicațiilor. Acestea pot satisface nevoi particulare acolo într-adevăr bine, în moduri mai bune decât pot baza de date relaționale.

Dar când o readuceți la analiza datelor, când o aduceți înapoi - când doriți să furnizați aceste informații persoanelor care urmează să facă raportări ad hoc sau să sape ad-hoc în date, acestea revin întotdeauna la o relație cel puțin, interfață pentru oameni. O parte din acest lucru se datorează doar faptului că SQL este limba franca a analizei datelor, deci înseamnă, pentru oameni, și instrumentele care se integrează. Cred că acesta este motivul pentru care SQL pe Hadoop este atât de popular și există atât de multe încercări de rezolvare a acestuia, pentru că la sfârșitul zilei, asta știe oamenii. Probabil sunt milioane de oameni care știu să scrie SQL și nu m-aș aventura nu milioane care știu să scrie o interogare de cadru de agregare Mongo. Și acesta este un limbaj standard utilizat pentru integrare într-o varietate foarte mare de platforme. Deci, tot ceea ce spune, ni s-a cerut foarte rar să ieșim din afară, deoarece aceasta este interfața pe care o folosesc cei mai mulți analiști și este un loc unde ne-am concentrat, mai ales în Compose, că ne-am concentrat pe scrierea SQL.

Aș spune că știința datelor este locul în care se aventura cel mai mult și, prin urmare, primim întrebări ocazionale despre utilizarea Pig sau SAS. Acestea sunt lucruri pe care cu siguranță nu le gestionăm în Compose și pe care am dori să le surprindem în catalog. Și văd și R și Python. Avem câteva moduri în care am făcut interfețe prin care puteți utiliza interogările scrise în Alation în interiorul scripturilor R și Python, așa că, de multe ori, când sunteți un om de știință de date și lucrați într-un limbaj de script, datele sursă sunt într-o relație Bază de date. Începeți cu o interogare SQL, apoi o prelucrați mai departe și creați grafice în interiorul lui R și Python. Și am creat pachete pe care le puteți importa în acele scripturi care trag interogările sau rezultatele interogării de la Alation, astfel încât să puteți avea un flux de lucru amestecat acolo.

Rebecca Jozwiak: Bine, minunat. Știu că am trecut puțin peste vârful orei, o să-mi pun doar una sau două întrebări. Știu că ați vorbit despre toate diferitele sisteme la care vă puteți conecta, dar în ceea ce privește datele găzduite extern și datele găzduite intern, pot fi căutate împreună în singura dvs. vizualizare, în singura dvs. platformă?

David Crawford: Sigur. Există câteva modalități de a face asta. Adică, găzduit extern, mi-aș imagina, încerc să mă gândesc exact la ce ar putea însemna asta. Ar putea însemna o bază de date pe care cineva o găzduiește în AWS pentru dvs. Ar putea însemna o sursă publică de date de la data.gov. Ne conectăm direct la baze de date conectându-ne la fel ca o altă aplicație cu, cu un cont de baze de date, și astfel extragem metadatele. Deci, dacă avem un cont și avem un port de rețea deschis, putem ajunge la acesta. Și atunci când nu avem aceste lucruri, avem ceva numit sursă de date virtuală, care vă permite să împingeți în mod esențial documentația, fie automat, scriind propriul conector sau completând-o făcând chiar ca o încărcare CSV, să vă documentați datele alături de datele dvs. interne. Acest lucru este introdus în motorul de căutare. Acesta devine referențial în articolele și alte documentații și conversații din sistem. Deci, așa ne descurcăm când ne putem conecta direct la un sistem.

Rebecca Jozwiak: Bine, asta are sens. Îți mai dau o întrebare. Un participant este întrebând: „Cum trebuie validat, verificat sau întreținut conținutul unui catalog de date, odată cu actualizarea datelor sursă, cu modificarea datelor sursă etc.”

David Crawford: Da, este o întrebare pe care o primim mult și cred că unul dintre lucrurile pe care noi - una dintre filozofiile noastre, așa cum am spus-o, nu credem că utilizatorii sunt răuvoitori. Presupunem că încearcă să contribuie cu cele mai bune cunoștințe. Nu vor veni și vor induce în eroare în mod deliberat oamenii despre date. Dacă este o problemă la organizația dvs., poate că Alations nu este instrumentul potrivit pentru dvs. Dar dacă vă asumați intenții bune ale utilizatorilor, atunci ne gândim la el ca la ceva, în care actualizările vin și atunci de obicei, ceea ce facem este să punem un steward responsabil de fiecare obiect de date sau de fiecare secțiune a datelor. Și putem notifica acei stewards atunci când se fac modificări în metadate și se pot ocupa în acest fel. Văd că intră actualizări, le validează. Dacă nu au dreptate, pot să se întoarcă și să le modifice și să le informeze, și sperăm să ajungă chiar la utilizatorul care a contribuit cu informațiile și să-i ajute să învețe.

Deci acesta este modul principal în care ne gândim să îl facem. Acest tip de sugestii din partea mulțimii și managementul de către ispravnici, așa că avem anumite capacități în acest sens.

Rebecca Jozwiak: Bun bine. Și dacă ai putea doar să anunți oamenii cum pot să înceapă cel mai bine cu Alation și unde pot merge în mod special pentru a obține mai multe informații. Știu că ai împărtășit asta un pic. Este cel mai bun loc?

David Crawford: Alation.com/learnmore cred că este un mod minunat de urmat. Pentru a vă înscrie la o demo, site-ul Alation.com are o mulțime de resurse excelente, cărți albe pentru clienți și știri despre soluția noastră. Deci cred că este un loc minunat pentru a începe. Poti de asemenea .

Rebecca Jozwiak: Bine, minunat. Și știu, participanți, îmi pare rău dacă nu am ajuns la toate întrebările de azi, dar, dacă nu, vor fi transmise lui David sau echipei sale de vânzări sau unei persoane de la Alation, astfel încât pot ajuta cu siguranță să răspundă la întrebările dvs. și să ajute să înțeleagă ce este Alation face sau ceea ce fac cel mai bine.

Și cu asta, oameni buni, voi merge mai departe și ne va semna. Puteți găsi întotdeauna arhivele la InsideAnalysis.com. O puteți găsi și pe Techopedia.com. Acestea tind să se actualizeze puțin mai repede, așa că verificați cu siguranță asta. Și mulțumesc mult pentru David Crawford, Dez Blanchfield și Robin Boor astăzi. A fost un webcast extraordinar. Și cu asta, mi-am luat rămas bun. Mulțumesc, oameni buni. Pa! Pa.

David Crawford: Mulțumesc.