Consolidarea învățării Vs. Învățare profundă pentru consolidare: Care este diferența?

Autor: Laura McKinney
Data Creației: 5 Aprilie 2021
Data Actualizării: 26 Iunie 2024
Anonim
Consolidarea învățării Vs. Învățare profundă pentru consolidare: Care este diferența? - Tehnologie
Consolidarea învățării Vs. Învățare profundă pentru consolidare: Care este diferența? - Tehnologie

Conţinut


La pachet:

Am mers la experți și i-am rugat să răspundă la diferențele importante dintre învățarea prin consolidare și învățarea profundă

Algoritmii de învățare prin mașină pot face viața și munca mai ușoare, eliberându-ne de sarcinile redundante în timp ce lucrăm mai repede - și mai inteligent - decât echipe întregi de oameni. Cu toate acestea, există diferite tipuri de învățare automată. De exemplu, există învățare la consolidare și învățare profundă la consolidare.

„Chiar dacă învățarea prin consolidare și învățarea profundă a armăturii sunt ambele tehnici de învățare automată care învață autonom, există unele diferențe”, spune Dr. Kiho Lim, profesor asistent de informatică la Universitatea William Paterson din Wayne, New Jersey. „Învățarea de consolidare este învățarea dinamică cu o metodă de încercare și eroare pentru a maximiza rezultatul, în timp ce învățarea de consolidare profundă învață din cunoștințele existente și o aplică unui nou set de date.”


Dar ce înseamnă mai exact asta? Am fost la experți - și le-am cerut să ofere o mulțime de exemple!

Ce este învățarea de armare?

După cum spune Lim, învățarea de consolidare este practica învățării prin încercare și eroare - și practică. „În această disciplină, un model învață în desfășurare, fiind recompensat în mod incremental pentru o predicție corectă și penalizat pentru predicții incorecte”, potrivit Hunaid Hameed, un om de știință de date la Data Science Dojo din Redmond, WA. (Citiți Învățarea la consolidare poate da o înțelegere dinamică plăcută marketingului.)

„Învățarea de consolidare este întâlnită în mod obișnuit în jocurile AI și îmbunătățirea jocului în timp.”

Cele trei componente esențiale ale învățării de consolidare sunt un agent, o acțiune și o recompensă. „Învățarea de consolidare respectă o metodologie specifică și determină cele mai bune mijloace pentru a obține cel mai bun rezultat”, potrivit Dr. Ankur Taly, șeful științei datelor la Fiddler Labs din Mountain View, CA. „Este foarte similar cu structura modului în care jucăm un joc video, în care personajul (agentul) se angajează într-o serie de încercări (acțiuni) pentru a obține cel mai mare punctaj (recompensă)”.


Cu toate acestea, este un sistem autonom de autodidactă. Folosind exemplul jocului video, Taly spune că recompensele pozitive pot proveni din creșterea punctajului sau a punctelor, iar recompense negative pot rezulta din alergarea în obstacole sau din efectuarea unor mișcări nefavorabile.

Chris Nicholson, CEO al San Francisco, Skymind, bazat pe CA, se bazează pe exemplul în care algoritmii învață prin încercare și eroare. ”Imaginează-ți că joci Super Mario Brothers pentru prima dată și încearcă să afli cum să câștigi: explorezi spațiul, te duci, sari, lovești o monedă, aterizezi pe o broască țestoasă și apoi vezi ce se întâmplă. ”

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de programe care schimbă viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Învățând acțiunile bune și acțiunile rele, jocul te învață cum să te comporte. „Învățarea prin consolidare face asta în orice situație: jocuri video, jocuri de masă, simulări ale cazurilor de utilizare din lumea reală.” De fapt, Nicholson spune că organizația sa folosește învățare prin consolidare și simulări pentru a ajuta companiile să descopere cea mai bună cale de decizie printr-o situație complexă.

În învățarea de consolidare, un agent ia mai multe decizii mai mici pentru a atinge un obiectiv mai mare. Un alt exemplu este învățarea unui robot să meargă. „În loc de direcții grele pentru a ridica un picior, aplecați genunchiul, lăsați-l jos și așa mai departe, o abordare de învățare a armamentului ar putea avea experimentul robotului cu diferite secvențe de mișcare și a afla care combinații sunt cele mai de succes în realizarea acestuia înaintează ", spune Stephen Bailey, om de știință de date și expert în instrumente de analiză la Immuta din College Park, MD.

În afară de jocurile video și robotica, există și alte exemple care pot ajuta la explicarea modului de funcționare a învățării de consolidare. Brandon Haynie, omul de știință al datelor de pe Babel Street din Washington, DC, îl compară cu un învățat uman de a merge cu bicicleta. „Dacă sunteți staționar și ridicați picioarele fără a pedala, o cădere - sau o pedeapsă - este iminentă.”

Cu toate acestea, dacă începi să pedalezi, atunci vei rămâne pe bicicletă - recompensă - și vei progresa către următoarea stare.

„Învățarea la consolidare are aplicații care acoperă mai multe sectoare, inclusiv decizii financiare, chimie, fabricație și, desigur, robotică”, spune Haynie.

Ce este învățarea de consolidare profundă?

Cu toate acestea, este posibil ca deciziile să devină prea complexe pentru abordarea consolidată a învățării. Haynie spune că poate fi copleșitor ca algoritmul să învețe din toate statele și să determine calea de recompensă. „În acest caz, învățarea prin armare profundă poate ajuta: porțiunea„ profundă ”se referă la aplicarea unei rețele neuronale pentru a estima statele, în loc să fie nevoită să mapăm fiecare soluție, creând un spațiu de soluție mai ușor de gestionat în procesul decizional.

Nu este un concept nou. Haynie spune că a existat încă din anii ’70. „Dar cu apariția unor calcule ieftine și puternice, avantajele suplimentare ale rețelelor neuronale pot ajuta acum la abordarea zonelor pentru a reduce complexitatea unei soluții”, explică el. (Citiți Care este diferența dintre inteligența artificială și rețelele neuronale?)

Deci, cum funcționează? Potrivit lui Peter MacKenzie, conducătorul echipei AI, Americas at Teradata, este o informație prea mare pentru a stoca în tabele, iar metodele tabulare ar cere agentului să viziteze fiecare combinație de stare și acțiune.

Cu toate acestea, învățarea de armare profundă înlocuiește metodele tabulare de estimare a valorilor stării cu aproximarea funcției. „Apropierea funcțională nu numai că elimină necesitatea de a stoca toate perechile de stări și valori într-un tabel, ci permite agentului să generalizeze valoarea stărilor pe care nu le-a văzut niciodată sau are informații parțiale despre, folosind valorile unor stări similare,” Spune MacKenzie.

„O mare parte din progresele incitante în învățarea de consolidare profundă s-au produs din cauza capacității puternice a rețelelor neuronale de a generaliza pe spații enorme de stat.” Și MacKenzie observă că învățarea la armare profundă a fost folosită în programele care au bătut unii dintre cei mai buni competitori umani în jocuri precum Chess and Go și sunt, de asemenea, responsabili pentru multe dintre avansările în robotică. (Citiți 7 femei lidere în AI, învățare automată și robotică.)

Bailey este de acord și adaugă: „La începutul acestui an, un agent AI numit AlphaStar a bătut cel mai bun jucător StarCraft II din lume - și acest lucru este deosebit de interesant, deoarece spre deosebire de jocurile ca Chess și Go, jucătorii de la StarCraft nu știu ce face adversarul lor.” În schimb, el spune că au trebuit să facă o strategie inițială, apoi să se adapteze, deoarece au aflat ce planifica adversarul lor.

Dar cum este posibil chiar asta? Dacă un model are o rețea neuronală mai mare de cinci straturi, Hameed spune că are capacitatea de a răspunde la date dimensionale înalte. „Datorită acestui fapt, modelul poate învăța să identifice singuri tiparele fără a avea un cuvant inginer uman și să selecteze variabilele care ar trebui să fie introduse în modelul de învățat”, explică el.

În scenarii deschise, puteți vedea cu adevărat frumusețea învățării profunde de armare. Taly folosește exemplul rezervării unei mese la un restaurant sau plasarea unei comenzi pentru un articol - situații în care agentul trebuie să răspundă la orice intrare din celălalt capăt.

„Învățarea de armare profundă poate fi folosită pentru a antrena un agent de conversație direct de la semnalul audio sau de la celălalt capăt”, spune el. „Când utilizați un semnal audio, agentul poate de asemenea să învețe să ridice pe semne subtile în audio, cum ar fi pauze, intonație, etc., aceasta este puterea învățării profunde de întărire.”

Și continuă să apară noi aplicații de învățare la consolidare profundă. Pentru a determina următoarea cea mai bună acțiune de a interacționa cu un client, MacKenzie spune „starea și acțiunile ar putea include toate combinațiile de produse, oferte și mesagerie pe toate canalele diferite, fiecare fiind personalizat - formulare, imagini, culori, fonturi.”

Un alt exemplu este optimizarea lanțului de aprovizionare, de exemplu, livrarea de produse perisabile în SUA „Stările posibile includ locația actuală a tuturor tipurilor de transport diferite, inventarul în toate fabricile, depozitele și magazinele de vânzare cu amănuntul și prognoza cererii pentru toți magazinele ”, spune MacKenzie.

„Folosirea învățării profunde pentru a reprezenta starea și spațiul de acțiune permite agentului să ia decizii logistice mai bune, care duc la expedieri mai oportune la un cost mai mic.”