Utilizatorii se asteapta ca recunoasterea vocala Siri sa functioneze bine, indiferent de limba, dispozitiv, mediu acustic sau latimea de banda a canalului de comunicare. Ca multe alte sarcini de invatare automata supravegheate, obtinerea unei acuratete atat de ridicate necesita de obicei cantitati mari de date etichetate. Ori de cate ori lansam Siri intr-o limba noua sau extindem asistenta la diferite latimi de banda ale canalelor audio, ne confruntam cu provocarea de a avea suficiente date pentru a ne antrena modelele acustice. In acest articol, discutam despre tehnicile de invatare a transferului care valorifica datele din modelele acustice deja in productie. Aratam ca reprezentarile sunt transferabile nu numai intre limbi, ci si pe latimile de banda ale canalelor audio. Ca studiu de caz, ne concentram pe recunoasterea sunetului in banda ingusta peste casti Bluetooth de 8 kHz in noi limbi Siri.

Date de domeniu in orice cantitate

Chiar daca aveti doar o cantitate limitata de date legate de domeniul de instruire, datele sunt valoroase. Cea mai mare parte a utilizarii Siri se intampla pe canalele audio in banda larga si doar o mica parte se intampla pe canalele in banda ingusta (de exemplu, castile Bluetooth de 8KHz). Cu toate acestea, in termeni absoluti, un numar mare de clienti utilizeaza Siri pe canale de banda ingusta. Cantitatea de sunet Bluetooth cu banda ingusta pe care o putem colecta inainte de lansarea Siri intr-o noua limba este limitata. In ciuda acestui fapt, obiectivul nostru este sa oferim cea mai buna experienta posibila clientilor nostri in prima zi.

La mijlocul anului 2014 am lansat un nou motor de recunoastere a vorbirii pentru Siri folosind retele neuronale profunde (DNN). Introdus pentru prima data in limba engleza americana, am extins acest motor la 13 limbi pana la mijlocul anului 2015. Pentru a ne extinde cu succes, a trebuit sa abordam problema construirii unor modele acustice de inalta calitate folosind cantitatile limitate de date transcrise care ar putea fi colectate inainte de lansare. Acest lucru a fost adevarat pentru audio in banda larga, de exemplu, colectat prin microfoane iPhone, dar cu atat mai mult pentru audio in banda ingusta colectat prin casti Bluetooth.

O modalitate prin care putem rezolva problema cantitatilor mici de audio Bluetooth in banda ingusta este limitarea bandelor audio in banda larga, care este relativ abundenta si mai usor de colectat. In practica, constatam ca modelele acustice antrenate pe cantitati limitate de audio Bluetooth cu banda ingusta ii depasesc pe cele antrenate pe cantitati mai mari de audio banda larga limitata de banda, evidentiind valoarea datelor din domeniu in antrenamentul modelului acustic (Figura 1). Acest lucru necesita valorificarea atat a unor cantitati mari de banda larga audio, cat si a bandelor audio inguste limitate. In aceasta lucrare, investigam initializarea retelei neuronale, in cadrul invatarii prin transfer [1], [2].

Figura 1. Rata de eroare a cuvintelor (WER) la testele Bluetooth in banda ingusta

Initializare trans-linguala

Multi cercetatori au demonstrat [3] [4] [5] ca straturile ascunse ale unui model acustic de retea neuronala pot fi partajate intre limbi. Rationamentul din spate este ca straturile ascunse invata transformari ale caracteristicilor care sunt mai putin specifice limbii si, in schimb, se generalizeaza intre limbi.

Figura 2. Initializare interlinguala

Transferam straturile ascunse ale unui DNN in banda ingusta dintr-o limba existenta bine antrenata in noua limba tinta si reinstruim reteaua folosind datele limbii tinta, asa cum se arata in Figura 2.

Folosind toate datele disponibile despre formarea in banda ingusta, formarea cu initializare interlinguala depaseste intotdeauna semnificativ linia de baza, indiferent de diferitele surse DNN pe care le-am incercat (vezi [6]). Chiar si cu doar 20 de ore de date in banda ingusta, pentru majoritatea limbilor, instruirea translingva, incepand cu un model englezesc in banda ingusta, depaseste linia de baza folosind date cu banda mult mai ingusta. In timp ce ne-am intrebat despre rolul relatiei lingvistice dintre limba sursa si limba tinta, nu am putut trage concluzii.

Initializarea latimii de banda incrucisata

Figura 3. Initializarea latimii de banda incrucisata

In experimentele noastre initiale, am constatat ca modelele antrenate folosind cantitati relativ mici de date audio Bluetooth cu banda ingusta sunt mai performante decat cele antrenate folosind cantitati mai mari de date de banda larga cu banda limitata. Cu toate acestea, modelele limitate de banda intr-o limba sunt inca utile ca punct de plecare initial. Reinstruim modelul cu banda limitata pe audio Bluetooth cu banda ingusta reala in limba respectiva. In acest fel putem folosi atat datele de banda larga, cat si cele de banda ingusta intr-o limba pentru a instrui modelele de banda ingusta. (Figura 3)

Transfer combinat cross-lingual si cross-bandwith

Dupa ce am vazut succesul celor doua tehnici anterioare de invatare prin transfer, ne-am gandit ca s-ar putea obtine imbunatatiri suplimentare prin combinarea abordarilor. Mai exact, atunci cand se formeaza initial un DNN pe date de banda larga limitate de banda intr-o noua limba, nu trebuie sa incepeti cu greutati aleatorii, ci poate initializa straturile ascunse dintr-un DNN instruit pe date cu banda limitata pentru un limbaj deja acceptat. (Vezi Figura 4.)

Figura 4. Initializare combinata a latimii de banda transversala si transversala Figura 5. O comparatie a ratei de eroare a cuvantului (WER) cu initializarea latimii de banda transversala si transversala

Concluzii

Folosim cunostintele din alte sarcini de recunoastere a vorbirii pentru a imbunatati modelele acustice DNN pentru aplicatiile Bluetooth cu banda ingusta. Astfel de cunostinte sunt obtinute prin initializarea modelului acustic DNN, utilizand in special greutati dintr-un DNN anterior instruit pe date de banda larga limitate de banda sau pentru un limbaj diferit.

Pentru toate limbile din experimentele noastre, aceste tehnici realizeaza o reducere de pana la 45% a ratei de eroare a cuvintelor relative (WER), in comparatie cu instruirea exclusiva cu date de banda ingusta Bluetooth in limba tinta. Abordarea noastra ofera, de asemenea, compromisuri flexibile intre timpul de instruire si invatarea din cele mai diverse date disponibile, asa cum este detaliat in lucrarea noastra [6].

Aceste metode se dovedesc extrem de eficiente in multe scenarii de modelare acustica a retelelor neuronale dincolo de studiul de caz al modelului cu banda ingusta Bluetooth detaliat in acest articol si ne ajuta sa construim cele mai bune modele posibile atunci cand Siri lanseaza in limbi noi si pe canale audio noi.

Referinte

[1] L Pratt, J Mostow si C Kamm, Transfer direct de informatii invatate intre retelele neuronale , in Proceedings of AAAI , 1991.

[2] S Thrun, Este mai usor sa inveti al n-lea lucru decat sa inveti primul? in Advances in Neural Information Processing Systems 8 (NIPS-95) , 1996.

[3] A Ghoshal, P Swietojanski si S Renals, Instruire multilingva a retelelor neuronale profunde , in Proc. IEEE ICASSP , 2013.

[4] JT Huang, J Li, D Yu, L Deng si Y Gong, Transfer de cunostinte in mai multe limbi folosind o retea neuronala profunda multilingva cu straturi ascunse partajate , in Proc. IEEE ICASSP , 2013.

[5] G Heigold, V Vanhoucke, A Senior, P Nguyen, M Ranzato, M Devin si J Dean, Modele acustice multilingve care utilizeaza retele neuronale profunde distribuite , in Proc. IEEE ICASSP , 2013.

[6] X Zhuang, A Ghoshal, AV Rosti, M Paulik, D Liu, Imbunatatirea modelelor acustice DNN Bluetooth Narrowband Acoustic by Cross-bandwidth si Cross-lingual Initialization , Interspeech , 2017.

anastasia brokelyn video salieri
roberta gemma seno video segretaria porno
streaming porn free video sesso malena
malena la pugliese tube video sex malena
moglie tradisce con nero video siffredi malena
centoxcento streaming gratis video sperma party
sextape italia video streaming xxx
mary la vedova video valeria borghese
porno barletta video valeria curtis
www.clubgemma.com video veronica le bon
emanuelle porn video xxx malena
joanna bujoli xxx videocentopercento
andrea dipre video hard videocentoxcento
casting italian porno videos cento x cento
valentina nappi primo porno videos centoxcento
centoxcento ita videos porno mario salieri
valentina nappi nurse videos salieri
porn streaming free vinny star
malena scopata da rocco viola porn
porno giovani porche violetta porn