Vorbirea este un semnal care poate permite interactiunea naturala intre om si masina. Pentru a facilita acest schimb, masinile trebuie sa fie capabile sa recunoasca ceea ce a spus un om, atat cuvintele, cat si contextul in care apar aceste cuvinte. Aceasta este sarcina recunoasterii vorbirii – una aparent simpla dintr-o perspectiva umana, dar incredibil de dificila pentru masini. De zeci de ani, cercetatorii au incercat sa dezvolte algoritmi pentru a face precizia recunoasterii vorbirii de catre masini apropiate de ceea ce pot realiza fiintele umane. O mare descoperire s-a intamplat doar atunci cand retelele neuronale avansate (DNN) au fost introduse in recunoasterea vorbirii, o lucrare de pionier in care Microsoft a contribuit in mod esential.
Cu toate acestea, DNN-urile au limitari. Nu pot identifica relatia temporala dintre cadrele de vorbire de la un moment la altul. Pe masura ce tehnologia de recunoastere a vorbirii a avansat, au fost create modele mai bune pentru identificarea acestei relatii temporale, alaturi de dezvoltarea detectiei si clasificarii mai precise a unitatilor de vorbire mici, numite senone.
Webinarii de cercetare Microsoft
Prelegeri de la cercetatori Microsoft cu intrebari si raspunsuri live si vizionare la cerere.
Inregistrati-va astazi
In viitoarea lucrare Interspeech 2019, „Layer Trajectory BLSTM”, cercetatorii Microsoft AI Eric Sun, Jinyu Li si Yifan Gong au avansat cu succes tehnologia de modelare a recunoasterii vorbirii prin re-proiectarea unitatilor de modelare pentru recunoasterea vorbirii. Mai exact, aceasta cercetare imbunatateste modelul actual al tehnologiei de recunoastere a vorbirii, LSTM bidirectional (BLSTM), prin adaugarea traiectoriei stratului pentru a prelua clasificarea senona (tinta), astfel incat BLSTM sa se poata concentra pe modelarea temporala.
Adaugarea de noi straturi de tehnologie de recunoastere a vorbirii: trecerea de la RNN la ltBLSTM
Deoarece vorbirea este un semnal de secventa de timp, este important sa se modeleze proprietatea unui semnal de vorbire in timp. Prin urmare, au fost adoptate modele de retea neuronala recurenta (RNN) cu unitati de memorie pe termen scurt (LSTM) si au ca rezultat o imbunatatire semnificativa a preciziei. RNN-urile sunt capabile sa identifice relatia temporala intre cadrele de vorbire, in timp ce unitatile LSTM ofera functii suplimentare care imita mai bine gandirea umana atunci cand vine vorba de vorbire (de exemplu, LSTM adauga o poarta „uita” care permite masinilor sa inteleaga mai bine cum sa ceara relevante cadrele de vorbire irelevante pe care le-a intalnit, impreuna cu portile de intrare si iesire). Cu toate acestea, LSTM este limitat de faptul ca poate citi informatii doar intr-o singura directie.
Avand in vedere intelegerea faptului ca informatiile viitoare sunt benefice pentru a prezice eticheta senonica a unui cadru de vorbire curent, LSTM bidirectional (BLSTM) a fost propus pentru a inlocui LSTM unidirectional, avansand in continuare precizia recunoasterii vorbirii. Cu alte cuvinte, BLSTM poate citi intrarile inapoi si inainte, ceea ce ii permite sa utilizeze contextul viitor pentru a recunoaste vorbirea mai precis. Figura 1 prezinta diagrama de flux a modelarii BLSTM, care utilizeaza T (ime) -BLSTM pentru a indica ca functioneaza pe modelarea temporala pe axa timpului. Datorita tuturor acestor tehnologii, sistemele de recunoastere a vorbirii functioneaza acum in mod similar cu oamenii.
Figura 1: BLSTM in sistemele traditionale utilizeaza unitati BLSTM pentru a finaliza atat modelarea temporala, cat si clasificarea tintelor.
Trecand dincolo de modelul actual utilizand un strat de traiectorie
In mod traditional, modelul de recunoastere a vorbirii se construieste intr-un mod strat cu strat, cadru cu cadru (un cadru de vorbire cuprinde de obicei cateva zecimi de milisecunde cu 10 milisecunde intre cadre). Retineti ca BLSTM din Figura 1 face nu numai lucrarea de modelare temporala pe axa timpului (orizontala), ci si lucrarea de clasificare tinta pe axa de adancime (verticala). Indeplineste doua sarcini simultan, limitandu-si capacitatea de a se concentra exclusiv pe oricare dintre aceste sarcini.
Cercetatorii considera ca nu este optim sa se lucreze atat la modelarea temporala, cat si la clasificarea tintelor folosind aceleasi unitati de modelare. Desi un sistem de recunoastere a vorbirii care utilizeaza unitati BLSTM atinge o precizie foarte buna de recunoastere, acesta ar putea fi imbunatatit prin decuplarea sarcinilor de modelare temporala si clasificare a tintelor. In acest scop, cercetatorii au propus o noua structura numita traiectoria stratului BLSTM (ltBLSTM), care utilizeaza unitatile T (ime) -BLSTM pentru a se concentra pe modelarea temporala si unitatile D (epth) -LSTM pentru a prelua clasificarea tinta loc de munca.
Figura 2: Modelul traiectoriei stratului BLSTM (ltBLSTM) utilizeaza atat unitatile T-BLSTM, cat si unitatile D-LSTM pentru a permite ambelor tipuri de unitati sa se specializeze in sarcini individuale: unitatile T-BLSTM se concentreaza pe modelarea temporala, in timp ce modelele D-LSTM se concentreaza pe tinta clasificare.
Dupa cum se arata in Figura 2, acum modelul de recunoastere a vorbirii are T-BLSTM care lucreaza la modelarea temporala pe axa timpului si D-LSTM care lucreaza la clasificarea tintei pe axa adancimii. D-LSTM-urile la pasi de timp diferiti nu au nicio dependenta de timp: scaneaza starile ascunse ale fiecarui strat T-BLSTM si utilizeaza informatiile de traiectorie ale stratului rezumat pentru clasificarea tintei finale. Mai mult, D-LSTM creeaza conexiuni auxiliare pentru debitul de gradient, facilitand astfel antrenarea modelelor mai profunde. Decuplarea face ca designul ltBLSTM sa fie foarte flexibil – nu este necesar sa utilizati LSTM pentru procesarea in adancime. Poate fi utilizat orice alt model adecvat pentru clasificare.
Drept urmare, acest nou model ltBLSTM muta sistemul de recunoastere a vorbirii cu o etapa mai departe. Antrenand cu o cantitate mare de date, acest nou model poate imbunatati relativ modelul traditional BLSTM cu pana la 14%. Prin utilizarea unui design cu latenta scazuta, ltBLSTM propus alimenteaza acum transcrierea intalnirii conversationale Microsoft si se asteapta sa fie utilizat pe scara larga in scenarii de recunoastere a vorbirii.
Capacitatea de recunoastere a vorbirii demonstrata de ltBLSTM functioneaza pe unitatile senone, unitati de vorbire mai mici in comparatie cu sub-cuvinte sau cuvinte. Cercetatorii spera ca aceasta tehnologie va duce la dezvoltari viitoare care sa permita unitati de sub-cuvinte si cuvinte.
Cercetatorii isi vor prezenta cercetarile privind ltBLSTM la Interspeech 2019. Prezentarea incepe la 17:40 pe 17 septembrie, in cadrul sesiunii „ASR Neural Network Architectures 1”.
porno volpetti video porno gratis nappi
smeraldi porno video porno gratis roberta gemma
blondie italian porn video porno infedeli
ti va di chiavare video porno interrazziale
barbiely video video porno italiano malena
isabella xxx video porno lady blue
rocco siffredi ass video porno luna ramondini
martina smeraldi fuck video porno malena
roberta gemma .it video porno malena mastromarino
christie dom xxx video porno mamme troie
porno malena e rocco siffredi video porno mario salieri
alex xxx video porno marito moglie
la vedova xxx video porno martina
vporn interracial video porno martina smeraldi
pubblic anal video porno max felicitas
rocco siffredi e milena mastromarino video porno melena
volpetti dipre video porno milanese
famiglia porn video porno milanesi
ti sborro in culo video porno moglie tradisce








