Acasă Ragazzasesso Transferati invatarea pentru intelegerea citirii automate – Microsoft Research

Ragazzasesso

Transferati invatarea pentru intelegerea citirii automate – Microsoft Research

154

De Xiaodong He, cercetator principal, Microsoft Research

Pentru fiintele umane, intelegerea citirii este o sarcina de baza, efectuata zilnic. Inca din scoala elementara, putem citi un articol si putem raspunde la intrebari despre ideile si detaliile sale cheie.

Webinarii de cercetare Microsoft

Prelegeri de la cercetatori Microsoft cu intrebari si raspunsuri live si vizionare la cerere.

Inregistrati-va astazi

Dar pentru AI, intelegerea completa a citirii este inca un obiectiv evaziv – dar unul necesar daca vom masura si realiza inteligenta generala AI. In practica, intelegerea citirii este necesara pentru multe scenarii din lumea reala, inclusiv asistenta pentru clienti, recomandari, raspuns la intrebari, dialog si gestionarea relatiei cu clientii. Are un potential incredibil pentru situatii precum ajutarea unui medic sa gaseasca rapid informatii importante in mijlocul a mii de documente, economisindu-si timpul pentru munca cu valoare mai mare si potential salvatoare de vieti.

Prin urmare, construirea de masini care sunt capabile sa realizeze intelegerea citirii masinilor (MRC) este de mare interes. In aplicatiile de cautare, intelegerea masinii va oferi un raspuns precis mai degraba decat un URL care contine raspunsul undeva intr-o pagina web lunga. Mai mult, modelele de intelegere a masinilor pot intelege cunostinte specifice incorporate in articole care acopera de obicei domenii inguste si specifice, in care datele de cautare de care depind algoritmii sunt rare.

Microsoft se concentreaza pe citirea automata si conduce in prezent o competitie in domeniu. Mai multe proiecte la Microsoft, inclusiv Deep Learning for Machine Comprehension, si-au pus, de asemenea, viziunea pe MRC. In ciuda marilor progrese, o problema cheie a fost trecuta cu vederea pana de curand – cum sa construim un sistem MRC pentru un domeniu nou?

Recent, mai multi cercetatori de la Microsoft Research AI, inclusiv Po-Sen Huang, Xiaodong He si stagiarul David Golub, de la Universitatea Stanford, au dezvoltat un algoritm de invatare a transferului pentru ca MRC sa atace aceasta problema. Munca lor va fi prezentata la EMNLP 2017, o conferinta de top pentru prelucrarea limbajului natural. Acesta este un pas cheie catre dezvoltarea unei solutii scalabile pentru a extinde MRC la o gama mai larga de domenii.

Este un exemplu al progresului pe care il facem catre un obiectiv mai larg pe care il avem la Microsoft: crearea unei tehnologii cu capacitati mai sofisticate si nuantate. „Nu vom construi doar o gramada de algoritmi pentru a rezolva problemele teoretice. Le folosim pentru a rezolva probleme reale si le testam pe date reale ”, a spus Rangan Majumder in blogul de citire a masinilor.

In prezent, majoritatea sistemelor de citire automata de ultima generatie sunt construite pe date de instruire supravegheate – instruite de la un capat la altul pe exemple de date, continand nu numai articolele, ci si intrebari etichetate manual despre articole si raspunsuri corespunzatoare. Cu aceste exemple, modelul MRC bazat pe invatarea profunda invata sa inteleaga intrebarile si sa deduca raspunsurile din articol, care implica mai multi pasi de rationament si inferenta.

Cu toate acestea, pentru multe domenii sau verticale, aceste date de instruire supravegheate nu exista. De exemplu, daca trebuie sa construim un nou sistem de citire automata pentru a ajuta medicii sa gaseasca informatii importante despre o noua boala, ar putea exista multe documente disponibile, dar exista o lipsa de intrebari etichetate manual despre articole si raspunsurile corespunzatoare. Aceasta provocare este amplificata atat de necesitatea de a construi un sistem MRC separat pentru fiecare boala diferita, cat si de faptul ca volumul literaturii creste rapid. Prin urmare, este de o importanta cruciala sa ne dam seama cum sa transferam un sistem MRC intr-un domeniu nou in care nu sunt disponibile intrebari si raspunsuri etichetate manual, dar exista un corp de documente.

Cercetatorii Microsoft au dezvoltat un model nou numit „retea de sinteza in doua etape” sau SynNet, pentru a raspunde acestei nevoi critice. In aceasta abordare, pe baza datelor supravegheate disponibile intr-un domeniu, SynNet invata mai intai un model general de identificare a „interesantitatii” potentiale intr-un articol. Acestea sunt puncte cheie de cunoastere, entitati numite sau concepte semantice care sunt de obicei raspunsuri pe care oamenii le pot cere. Apoi, in a doua etapa, modelul invata sa formeze intrebari de limbaj natural in jurul acestor raspunsuri potentiale, in contextul articolului. Odata instruit, SynNet poate fi aplicat unui nou domeniu, poate citi documentele din noul domeniu si apoi poate genera pseudo intrebari si raspunsuri impotriva acestor documente. Apoi, formeaza datele de instruire necesare pentru a instrui un sistem MRC pentru acel domeniu nou, care ar putea fi o noua boala,

Ideea de a genera date sintetice pentru a spori datele de formare insuficiente a fost explorata anterior. De exemplu, pentru sarcina tinta de traducere, Rico Sennrich si colegii sai prezinta o metoda in lucrarea lor de a genera traduceri sintetice, oferind propozitii reale pentru a refina un sistem de traducere automata existent. Cu toate acestea, spre deosebire de traducerea automata, pentru sarcini precum MRC, trebuie sa sintetizam atat intrebari, cat si raspunsuri pentru un articol. Mai mult, desi intrebarea este o propozitie de limbaj natural ﬂ uent sintactic, raspunsul este in cea mai mare parte un concept semantic evident in paragraf, cum ar fi o entitate numita, o actiune sau un numar. Deoarece raspunsul are o structura lingvistica diferita de cea a intrebarii, ar putea fi mai potrivit sa privim raspunsurile si intrebarile ca doua tipuri diferite de date.

In abordarea noastra, descompunem procesul de generare a perechilor intrebare-raspuns in doi pasi: Generarea de raspuns conditionata de paragraf si generatia de intrebari conditionata de paragraf si raspuns. In primul rand, generam raspunsul, deoarece raspunsurile sunt de obicei concepte semantice cheie, in timp ce intrebarile pot fi privite ca o propozitie completa compusa pentru a intreba despre concept.

SynNet este instruit pentru a sintetiza raspunsul si intrebarea unui paragraf dat. Prima etapa a modelului, un modul de sinteza a raspunsurilor, utilizeaza o memorie bidirectionala pe termen scurt (LSTM) pentru a prezice etichetele de inceput interior-exterior (IOB) de pe paragraful de intrare, care marcheaza conceptele semantice cheie care sunt probabil raspunsuri . A doua etapa, un modul de sinteza a intrebarilor, utilizeaza un LSTM unidirectional pentru a genera intrebarea, participand la incorporarea cuvintelor din paragraf si ID-urile IOB. Desi mai multe perioade din paragraf ar putea fi identificate ca raspunsuri potentiale, alegem un interval atunci cand generam intrebarea.

Doua exemple de intrebari generate si raspunsuri din articole sunt ilustrate mai jos:

Folosind SynNet, am reusit sa obtinem rezultate mai precise pe un domeniu nou, fara date de instruire suplimentare, abordand performanta unui sistem MRC complet supravegheat.

SynNet, instruit in SQuAD (articole Wikipedia), functioneaza aproape la fel de bine pe domeniul NewsQA (articole de stiri), ca un sistem complet instruit in NewsQA.

SynNet este ca un profesor, care, pe baza experientei sale in domeniile anterioare, creeaza intrebari si raspunsuri din articole din noul domeniu si foloseste aceste materiale pentru a-i invata pe elevii sai sa inteleaga citirea in noul domeniu. In consecinta, cercetatorii Microsoft au dezvoltat, de asemenea, un set de modele de citire a masinilor neuronale, inclusiv ReasoNet recent dezvoltat, care a aratat o multime de promisiuni, care sunt ca studentii care invata din materialele didactice sa raspunda la intrebari pe baza articolului.

Din cate stim, aceasta este prima incercare de a aplica transferul de domeniu MRC. Asteptam cu nerabdare sa dezvoltam solutii scalabile care extind rapid capacitatea MRC de a elibera potentialul de schimbare a jocului de citire pe masina!

In legatura cu :

Microsoft preda sisteme pentru a citi, a raspunde si chiar a pune intrebari
Incepeti cu setul de date de raspuns la intrebari de la Stanford de pe GitHub
Imbunatatirea modelelor de traducere automata neuronala cu date monolingve
Vizitati Microsoft Research Deep Learning Group

sperma party streaming alex magni porno video
scopate in sardegna alex magni provini
max felicitas you porn alex magni streaming
provino porn alex magni tube
maison de l amour alex magni videos
giovani porche alex magni xxx
malena la pugliese porn alex porn
giada da vinci alex xxx
emmanuelle sex alexmagni
porn hd italian alexy brey
www.roberta gemma.com alice porn
puttane giovanissime alice xxx
tanto porn always watching streaming ita
selvaggia xxx amante scopa
free porno italiano amatoriale amanti delle tette
cagna porca amateur squirting
trans dom amateurs xxx
jeshbyjesh amateurs xxx
malena fucking amatoriale con moglie
porno amante italiana amatoriale italiano ragazza

Transferati invatarea pentru intelegerea citirii automate – Microsoft Research

Webinarii de cercetare Microsoft

Populare

Afacere proprie, angajat la stat sau angajat la privat? Pro &...

Cum alegi cel mai bun brad de Crăciun?

Afla cum iti poti lansa o mica afacere folosind un spatiu...

Top 10 cele mai supraevaluate filme din toate timpurile

10 regizori care au facut un film de groaza si au...

10 documentare care au schimbat perceptia publicului

Top 10 interviuri controversate cu celebritati din toate timpurile

Top 10 cele mai memorabile momente ale premiilor Oscar

Cum se schimba viata atunci cand intri in cercurile sociale ale...

10 povesti ciudate din lumea rap pe care sa le cunosti