De ce sunt adesea greu de antrenat rețelele neuronale recurente artificiale?

Video: Lecture 7.4 — Why it is difficult to train an RNN? [Neural Networks for Machine Learning]

Conţinut

Î:

A:

Dificultatea antrenării rețelelor neuronale recurente artificiale are legătură cu complexitatea lor.

Unul dintre cele mai simple moduri de a explica de ce rețelele neuronale recurente sunt greu de antrenat este faptul că acestea nu sunt rețele neuronale avansate.

În rețelele neuronale avansate, semnalele se mișcă doar într-un sens. Semnalul se mută de la un strat de intrare la diferite straturi ascunse și înainte, la stratul de ieșire al unui sistem.

În schimb, rețelele neuronale recurente și alte tipuri diferite de rețele neuronale au mișcări de semnal mai complexe. Clasificate ca rețele „feedback”, rețelele neuronale recurente pot avea semnale care călătoresc atât înainte cât și înapoi și pot conține diverse „bucle” în rețea în care numerele sau valorile sunt introduse în rețea. Experții asociază acest aspect cu aspectul rețelelor neuronale recurente asociate cu memoria lor.

În plus, există un alt tip de complexitate care afectează rețelele neuronale recurente. Un exemplu excelent în acest sens este în domeniul procesării limbajului natural.

În procesarea sofisticată a limbajului natural, rețeaua neuronală trebuie să poată aminti lucruri. Trebuie să ia și inputuri în con. Să presupunem că există un program care dorește să analizeze sau să prezică un cuvânt în cadrul unei propoziții cu alte cuvinte. Poate fi, de exemplu, o lungime fixă de cinci cuvinte pentru evaluarea sistemului. Asta înseamnă că rețeaua neuronală trebuie să aibă inputuri pentru fiecare dintre aceste cuvinte, împreună cu capacitatea de a „reține” sau de a se antrena pe conținutul acestor cuvinte. Din aceste motive și din alte motive similare, rețelele neuronale recurente au de obicei aceste mici bucle și feedback-uri ascunse în sistem.

Experții lamentează că aceste complicații îngreunează formarea rețelelor. Unul dintre cele mai comune moduri de a explica acest lucru este citând problema gradientului care explodează și dispărește. În esență, ponderile rețelei vor conduce fie la explodarea, fie la dispariția valorilor cu un număr mare de treceri.

Pionierul rețelei neuronale, Geoff Hinton, explică acest fenomen pe rețea, spunând că trecerile liniare înapoi vor face ca greutățile mai mici să se micșoreze exponențial și să explodeze greutăți mai mari.

Această problemă, continuă el, se agravează cu secvențe lungi și cu mai mulți pași de timp, în care semnalele cresc sau se descompun. Initializarea greutatii poate ajuta, dar aceste provocari sunt integrate in modelul recurentei de retea neuronala. Există întotdeauna acea problemă atașată de proiectarea și construcția lor specială. În esență, unele dintre cele mai complexe tipuri de rețele neuronale sfidează cu adevărat capacitatea noastră de a le gestiona cu ușurință. Putem crea o cantitate practic infinită de complexitate, dar vedem adesea creșterea provocărilor de predictibilitate și scalabilitate.