Sinteza vorbirii

Video: Rupal Patel: Synthetic voices, as unique as fingerprints

Conţinut

Definiție - Ce înseamnă Sinteza vorbirii?
O introducere în Microsoft Azure și Microsoft Cloud | În acest ghid, veți afla despre ce este vorba despre cloud computing și despre cum Microsoft Azure vă poate ajuta să migrați și să conduceți afacerea din cloud.
Techopedia explică sinteza vorbirii

Definiție - Ce înseamnă Sinteza vorbirii?

Sinteza vorbirii este simularea artificială a vorbirii umane cu ajutorul unui computer sau alt dispozitiv. Contrapartida recunoașterii vocale, sinteza vocală este utilizată mai ales pentru traducerea informațiilor în informații audio și în aplicații precum serviciile vocale și aplicațiile mobile. În afară de aceasta, este utilizat și în tehnologia de asistență pentru a ajuta persoanele cu deficiențe de vedere în citirea conținutului.

O introducere în Microsoft Azure și Microsoft Cloud | În acest ghid, veți afla despre ce este vorba despre cloud computing și despre cum Microsoft Azure vă poate ajuta să migrați și să conduceți afacerea din cloud.

Techopedia explică sinteza vorbirii

Homer Dudleys VODER, care a fost bazat pe vocoderul de la Bell Laboratories, este considerat primul sintetizator vocal complet funcțional. Computerul utilizat în sinteza vorbirii este cunoscut sub numele de sintetizator de vorbire sau computer de vorbire. Calitatea computerului de vorbire este adesea apreciată prin asemănarea sa cu vocea umană. Majoritatea sistemelor de operare de computer au încorporat sintetizatoare de vorbire încă de la începutul anilor ’90. Discursul sintetizat este de obicei generat cu ajutorul concatenării bucăților de vorbire înregistrate, care este conținut într-o bază de date.

Etapa inițială în sinteza vorbirii este pre-procesarea, care elimină ambiguitatea care înconjoară modul în care trebuie citit cuvântul specific și care include, de asemenea, manipularea omografiilor. În următoarea etapă de sinteză a vorbirii, computerul ia ajutorul fonemelor pentru a converti secvența de sunete. Ultima etapă implică utilizarea de înregistrări umane sau tehnici de bază de generare a sunetului pentru a imita mecanismul vocal uman și a citi întregul. Una dintre ramurile populare ale sintezei vorbirii este sinteza audio-vizuală a vorbirii sau sinteza multimodală a vorbirii care face uz de o față animată strâns sincronizată pentru a completa discursul sintetizat. Sinteza de vorbire multimodală include, de asemenea, caracteristici suplimentare, precum indicii non-verbale vorbirii, pentru a ajuta la comunicarea cuvintelor utilizatorilor cu mai multă precizie. Multe sisteme de sinteză a vorbirii permit utilizatorilor să aleagă tipul de voce, cum ar fi vocea masculină sau feminină.

Majoritatea sistemelor de sinteză a vorbirii sunt capabile să le citească și să le emită într-un mod foarte inteligent, deși vocea poate fi uneori plictisitoare. Sinteza vorbirii, cu toate acestea, este încă de a dezvolta capacitatea de a imita pe deplin spectrul larg de intonații și cadențe umane.