7 pași pentru învățarea mineritului și științei datelor

Autor: Eugene Taylor
Data Creației: 12 August 2021
Data Actualizării: 22 Iunie 2024
Anonim
7 pași pentru învățarea mineritului și științei datelor - Tehnologie
7 pași pentru învățarea mineritului și științei datelor - Tehnologie

Conţinut


Sursa: Paul Fleet / Dreamstime.com

La pachet:

Știința datelor se învață cel mai bine prin realizarea acestora, dar contează foarte bine și statisticile și învățarea automată.

Sunt frecvent întrebat cum să învăț minarea datelor și știința datelor. Iată rezumatul meu

Puteți învăța cel mai bine extragerea datelor și știința datelor, așa că începeți să analizați datele cât mai repede! Totuși, nu uitați să învățați teoria, deoarece aveți nevoie de o bază bună de statistică și de învățare automată pentru a înțelege ce faceți și pentru a găsi nuggets reale de valoare în zgomotul datelor mari.

Iată șapte pași pentru învățarea mineritului și științei datelor. Deși sunt numerotate, le puteți face în paralel sau într-o ordine diferită.

  1. Limbi: Învață R, Python și SQL
  2. Instrumente: aflați cum să utilizați instrumente de extragere a datelor și vizualizare
  3. cărți: Citiți cărți introductive pentru a înțelege fundamentele
  4. Educație: vizionați webinarii, luați cursuri și luați în considerare un certificat sau o diplomă în știința datelor (citiți mai multe în Ben Loricas Cum să nutriți un științific de date.)
  5. Date: verificați resursele de date disponibile și găsiți ceva acolo
  6. Competiții: Participare la concursuri de extragere a datelor
  7. Interacționează cu alți oameni de știință de date, prin rețele sociale, grupuri și întâlniri

În acest articol, folosesc schimbarea datelor și știința datelor în mod interschimbabil. Vedeți prezentarea mea, Analiza industriei Google Analytics, unde mă uit la evoluția și popularitatea diferiților termeni precum statistici, descoperirea cunoștințelor, extragerea datelor, analiza predictivă, știința datelor și date mari.


1. Învățarea limbilor

Un sondaj recent KDnuggets a descoperit că cele mai populare limbi pentru extragerea datelor sunt R, Python și SQL. Există multe resurse pentru fiecare, de exemplu:

  • Cartea electronică gratuită despre Data Science with R
  • Noțiuni introductive cu Python pentru știința datelor
  • Python pentru analiza datelor: instrumente agile pentru date din lumea reală
  • Un Python indispensabil: Sourcing Data to Science Data
  • Școlile W3 SQL Learning

2. Instrumente: Software Mining Data, Data Science și Software de vizualizare

Există multe instrumente de extragere a datelor pentru diferite sarcini, dar cel mai bine este să înveți cum să folosești o suită de extragere a datelor care acceptă întregul proces de analiză a datelor. Puteți începe cu instrumente open-source (gratuite), cum ar fi KNIME, RapidMiner și Weka.

Cu toate acestea, pentru multe joburi de analiză trebuie să cunoașteți SAS, care este instrumentul comercial de frunte și utilizat pe scară largă. Alte programe de analiză și extragere a datelor populare includ MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler și Rattle.


Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Vizualizarea este o parte esențială a oricărei analize a datelor. Aflați cum să utilizați Microsoft Excel (bun pentru multe sarcini mai simple), grafică R, (în special ggplot2) și, de asemenea, Tableau - un pachet excelent pentru vizualizare. Alte instrumente de vizualizare bune includ TIBCO Spotfire și Miner3D.

3. cărți

Există multe cărți de minerit și știință a datelor disponibile, dar puteți verifica următoarele:

  • Data Mining and Analysis: Concepts Fundamental and Algorithms, free download PDF (draft), de Mohammed Zaki și Wagner Meira Jr.
  • Minerirea datelor: Instrumente și tehnici practice de învățare a mașinilor, de Ian Witten, Eibe Frank și Mark Hall, de la autorii Weka, și folosind pe scară largă Weka în exemple
  • Elemente de învățare statistică, extragere de date, inferență și predicție, de Trevor Hastie, Robert Tibshirani, Jerome Friedman. O introducere excelentă pentru orientarea matematică
  • LIONbook: învățare și optimizare inteligentă, de Roberto Battiti și Mauro Brunato, disponibile gratuit pe web, capitol după capitol
  • Cartea minierelor de date masive, de A. Rajaraman, J. Ullman
  • Cartea de statistică electronică StatSoft (gratuită), include multe subiecte privind extragerea datelor

4. Educație: seminarii web, cursuri, certificate și diplome

Puteți începe vizionând câteva dintre numeroasele webinarii și transmisiile web gratuite pe cele mai recente subiecte în materie de analiză, date mari, minerit de date și știința datelor.

Există, de asemenea, multe cursuri online, scurte și lungi, multe dintre ele gratuite. (Consultați directorul educației online KDnuggets.)

Verificați în special aceste cursuri:

  • Machine Learning, la Coursera, predată de Andrew Ng
  • Învățarea de la Data la edX, predată de profesorul Caltech, Yaser Abu-Mostafa
  • Curs online deschis în știința datelor aplicate, de la Syracuse iSchool
  • Data Mining cu Weka, curs online gratuit
  • Verificați de asemenea diapozitive online gratuite de la cursul meu de extragere a datelor, un curs de introducere pe parcursul unui semestru în extragerea datelor

În cele din urmă, luați în considerare obținerea de certificate în minerit de date și știința datelor sau grade avansate, cum ar fi un master în știința datelor.

5. Date

Veți avea nevoie de date pentru a analiza - consultați directorul KDnuggets al seturilor de date pentru data mining, inclusiv:

  • Site-uri și portaluri guvernamentale, federale, de stat, oraș, locale și publice
  • API-uri de date, hub-uri, piețe, platforme, portaluri și motoare de căutare
  • Seturi de date publice gratuite

6. Competiții

Din nou, veți învăța cel mai bine făcând, deci participați la competiții Kaggle. Începeți cu competiții pentru începători, cum ar fi Prezicerea supraviețuirii Titanicului cu ajutorul învățării automate.

7. Interacționați: întâlniri, grupuri și rețele sociale

Vă puteți alătura mai multor grupuri de pari. Vedeți primele 30 de grupuri LinkedIn pentru analize, date mari, minerit de date și știința datelor.

AnalyticBridge este o comunitate activă pentru analiză și știința datelor.

Puteți participa la unele dintre numeroasele întâlniri și conferințe despre analitice, date mari, minerit de date, știința datelor și descoperire a cunoștințelor.

De asemenea, aveți în vedere să vă alăturați ACM SIGKDD, care organizează conferința anuală KDD - conferința de cercetare principală în domeniu.

Acest articol este reed de pe KDNuggets.com. A fost folosit cu permisiunea autorului.