Intelegerea limbajului natural (NLU) este unul dintre cele mai indelungate obiective in AI, iar SuperGLUE se afla in prezent printre cele mai provocatoare etaloane pentru evaluarea modelelor NLU. Punctul de referinta consta dintr-o gama larga de sarcini NLU, inclusiv raspunsul la intrebari, inferenta limbajului natural, rezolutia de referinta, dezambiguizarea sensului cuvantului si altele. Luati ca exemplu sarcina de rationament cauzal (COPA din Figura 1). Avand in vedere premisa „copilul a devenit imun la boala” si intrebarea „care este cauza?”, Modelului i se cere sa aleaga un raspuns din doi candidati plauzibili: 1) „a evitat expunerea la boala” si 2) „A primit vaccinul pentru boala”. Desi este usor pentru un om sa aleaga raspunsul corect, este o provocare pentru un model de AI. Pentru a obtine raspunsul corect,

De la lansarea sa in 2019, echipele de cercetare de top din intreaga lume au dezvoltat modele de limba pretrainata la scara larga (PLM) care au condus la imbunatatirea izbitoare a performantei pe reperul SuperGLUE. Microsoft a actualizat recent modelul DeBERTa prin instruirea unei versiuni mai mari, care consta din 48 de straturi Transformer cu 1,5 miliarde de parametri. Cresterea semnificativa a performantei face ca modelul unic DeBERTa sa depaseasca pentru prima data performanta umana pe SuperGLUE din punct de vedere al scorului macro-mediu (89,9 fata de 89,8), iar ansamblul modelului DeBERTa se afla pe varful clasamentului de referinta SuperGLUE, depasind linia de baza umana cu un marja decenta (90,3 fata de 89,8). Modelul se afla, de asemenea, in partea de sus a clasamentului de referinta GLUE, cu un scor macro-mediu de 90,8.

Microsoft va lansa publicul modelul DeBERTa de 1,5 miliarde de parametri si codul sursa. In plus, DeBERTa este integrat in urmatoarea versiune a modelului de reprezentare a limbajului natural Microsoft Turing (Turing NLRv4). Modelele noastre Turing converg toate inovatiile lingvistice de la Microsoft si apoi sunt instruite la scara larga pentru a sprijini produse precum Bing, Office, Dynamics si Azure Cognitive Services, oferind o gama larga de scenarii care implica interactiuni om-masina si interactiuni om-om limba (cum ar fi chatbot, recomandare, raspuns la intrebari, cautare, asistenta personala, automatizare asistenta pentru clienti, generare de continut si altele) pentru a beneficia de sute de milioane de utilizatori prin initiativa Microsoft AI at Scale.

Figura 1: Clasamentul SuperGLUE incepand cu 6 ianuarie 2021.

DeBERTa (BERT cu decodificare imbunatatita cu atentie dezamagita) este un model de limbaj neuronal bazat pe transformator, pre-antrenat pe cantitati mari de corpuri de text brut, utilizand invatarea autocontrolata. La fel ca alte PLM-uri, DeBERTa este destinat sa invete reprezentari de limbaj universale care pot fi adaptate la diverse sarcini NLU din aval. DeBERTa imbunatateste PLM-urile anterioare de ultima generatie (de exemplu, BERT, RoBERTa, UniLM) folosind trei tehnici noi (ilustrate in Figura 2): un mecanism de atentie despartit, un decodor de masca imbunatatit si o metoda virtuala de instruire contradictorie pentru fine -acordare.

Figura 2: Arhitectura lui DeBERTa. DeBERTa imbunatateste modelele BERT si RoBERTa cu 1) folosind un mecanism de atentie despartit in care fiecare cuvant este reprezentat folosind doi vectori care ii codifica continutul si pozitia relativa, respectiv, si 2) un decodor de masca imbunatatit.

Atentie despartita: o abordare cu doua vectori a incorporarii continutului si pozitiei

Spre deosebire de BERT, unde fiecare cuvant din stratul de intrare este reprezentat folosind un vector care insumeaza incorporarea cuvantului (continut) si incorporarea pozitiei, fiecare cuvant din DeBERTa este reprezentat folosind doi vectori care ii codifica continutul si pozitia, respectiv, si ponderile atentiei dintre cuvintele sunt calculate folosind matrici despartite pe baza continutului si, respectiv, a pozitiilor relative. Acest lucru este motivat de observatia ca greutatea atentiei (care masoara puterea dependentei cuvant-cuvant) a unei perechi de cuvinte depinde nu numai de continutul lor, ci si de pozitiile lor relative. De exemplu, dependenta dintre cuvintele „adanc” si „invatare” este mult mai puternica atunci cand apar una langa alta decat atunci cand apar in propozitii diferite.

Decodorul de masca imbunatatit reprezinta pozitiile absolute ale cuvintelor

La fel ca BERT, DeBERTa este pretrainat folosind modelarea limbajului mascat (MLM). MLM este o sarcina de completare, in care un model este invatat sa foloseasca cuvintele care inconjoara un simbol masca pentru a prezice care ar trebui sa fie cuvantul mascat. DeBERTa foloseste continutul si informatiile de pozitie ale cuvintelor de context pentru MLM. Mecanismul de atentie despartit ia deja in considerare continutul si pozitiile relative ale cuvintelor de context, dar nu pozitiile absolute ale acestor cuvinte, care in multe cazuri sunt cruciale pentru predictie.

Luati in considerare propozitia „un nou magazin deschis langa noul mall ” cu cuvintele cursivizate „magazin” si „mall” mascate pentru predictie. Desi contextele locale ale celor doua cuvinte sunt similare, ele joaca roluri sintactice diferite in propozitie. (Aici, subiectul propozitiei este „depozitati”, nu „mall”, de exemplu.) Aceste nuante sintactice depind, intr-o mare masura, de pozitiile absolute ale cuvintelor din propozitie si, prin urmare, este important sa tineti cont de o pozitia absoluta a cuvantului in procesul de modelare a limbajului. DeBERTa incorporeaza incorporari de pozitie absoluta a cuvantului chiar inainte de stratul softmax unde modelul decodeaza cuvintele mascate pe baza incorporarilor contextuale agregate ale continutului si pozitiilor cuvintelor.

Scale Invariant Fine-Tuning imbunatateste stabilitatea antrenamentului

Instruirea virtuala a contradictiei este o metoda de regularizare pentru imbunatatirea generalizarii modelelor. O face prin imbunatatirea robustetii unui model fata de exemplele contradictorii, care sunt create prin producerea unor mici perturbatii la intrare. Modelul este regularizat astfel incat, atunci cand este dat un exemplu specific sarcinii, modelul produce aceeasi distributie de iesire pe care o produce pe o perturbare contradictorie a acelui exemplu. Pentru sarcinile NLU, perturbarea se aplica incorporarii cuvintelor in locul secventei de cuvinte originale. Cu toate acestea, intervalele de valori (norme) ale vectorilor de incorporare variaza intre diferite cuvinte si modele. Varianta devine mai mare pentru modelele mai mari, cu miliarde de parametri, ceea ce duce la o anumita instabilitate a instruirii contradictorii. Inspirat de normalizarea stratului, pentru a imbunatati stabilitatea antrenamentului,incorporari de cuvinte normalizate .

Concluzie si asteptare inainte

Asa cum se arata in clasamentul SuperGLUE (Figura 1), DeBERTa stabileste un nou stadiul tehnicii pe o gama larga de sarcini NLU, combinand cele trei tehnici detaliate mai sus. In comparatie cu modelul Google T5, care consta din 11 miliarde de parametri, parametrul DeBERTa de 1,5 miliarde este mult mai eficient din punct de vedere energetic pentru antrenament si intretinere si este mai usor de comprimat si implementat in aplicatii cu diferite setari.

DeBERTa care depaseste performanta umana pe SuperGLUE marcheaza o etapa importanta in AI general. In ciuda rezultatelor sale promitatoare in SuperGLUE, modelul nu atinge nicidecum inteligenta umana a NLU. Oamenii sunt extrem de buni in valorificarea cunostintelor invatate din diferite sarcini pentru a rezolva o sarcina noua, fara o demonstratie specifica sau mica. Aceasta este denumita generalizare compozitionala , abilitatea de a generaliza la compozitii noi (sarcini noi) ale constituentilor familiari (sarcini secundare sau abilitati de baza pentru rezolvarea problemelor). Mergand mai departe, merita explorat modul in care DeBERTa poate incorpora structuri compozitionale intr-un mod mai explicit, ceea ce ar putea permite combinarea calculului neuronal si simbolic al limbajului natural similar cu ceea ce fac oamenii.

Multumiri

Aceasta cercetare a fost realizata de Pengcheng He, Xiaodong Liu, Jianfeng Gao si Weizhu Chen. Multumim colaboratorilor nostri de la Bing, Dynamics 365 AI si Microsoft Research pentru furnizarea de resurse de calcul pentru modelare la scara larga si discutii perspicace.

cento x cento novità pool orgy
malena rocco poppe porn

francesca nencetti poppe sex
cento xcento poppe xxx
le maison de l’amour poppea porn
valentina nappi rocco sifredi poppea xxx
xxx centoxcento porca bolognese
malena la pugliese video hot porca putana
tatoo porno porca troia porno
roberta gemma xxx porche bionde
brazzers video streaming porche giovani
roberta gemma torrent porche toscane
malena la pugliese video link porche xxx
la.maestra analfabeta porcona porn
xxx canzoni porcona xxx
porno rossella visconti porcone porn
rocco siffredi con valentina nappi porcone xxx
xxx fica porn 100×100
rocco academy porn porn 12