In ultimii cativa ani, invatarea profunda a devenit adoptata pe scara larga in pila de cautare Bing si alimenteaza un numar mare de caracteristici inteligente. Folosim modele de limbaj natural pentru a imbunatati intelegerea algoritmului nostru de cautare a intentiei de cautare a unui utilizator si a paginilor web aferente, astfel incat Bing sa poata furniza cele mai relevante rezultate ale cautarii utilizatorilor nostri. Ne bazam pe invatarea profunda a tehnicilor de viziune pe computer pentru a imbunatati descoperirea a miliarde de imagini, chiar daca acestea nu au descrieri text insotitoare sau metadate rezumate. Folosim modele de intelegere a citirii bazate pe masini pentru a prelua subtitrari in corpuri de text mai mari care raspund direct la intrebarile specifice pe care le au utilizatorii. Toate aceste imbunatatiri conduc la rezultate contextuale mai relevante pentru interogarile de cautare pe web.
Recent, a existat o descoperire in intelegerea limbajului natural cu un tip de model numit transformatoare (popularizat de reprezentarile codificatorului bidirectional de la Transformers, BERT). Spre deosebire de arhitecturile anterioare ale retelei neuronale profunde (DNN) care prelucrau cuvintele individual in ordine, transformatoarele inteleg contextul si relatia dintre fiecare cuvant si toate cuvintele din jurul sau intr-o propozitie. Incepand cu luna aprilie a acestui an, am folosit modele mari de transformatoare pentru a oferi cele mai mari imbunatatiri ale calitatii clientilor nostri Bing in ultimul an. De exemplu, in interogarea „ce poate agrava o contuzie”, cuvantul „agrava” indica faptul ca utilizatorul doreste sa afle despre actiunile care trebuie intreprinse dupa o contuzie si nu despre cauze sau simptome. Cautarea noastra bazata pe aceste modele poate intelege acum intentia utilizatorului si poate oferi un rezultat mai util. Mai important, aceste modele sunt acum aplicate la fiecare interogare de cautare Bing la nivel global, facand rezultatele Bing mai relevante si mai inteligente.
Invatarea profunda la scara de cautare pe web poate fi costisitoare
Clientii Bing se asteapta la o experienta de cautare extrem de rapida si fiecare milisecunda de latenta conteaza. Modelele bazate pe transformatoare sunt pre-instruite cu pana la miliarde de parametri, ceea ce reprezinta o crestere considerabila a dimensiunii parametrilor si a cerintelor de calcul in comparatie cu arhitecturile de retea anterioare. Un model BERT cu trei straturi distilat care serveste latenta pe douazeci de nuclee CPU a fost initial comparat la 77 ms pe inferenta. Cu toate acestea, deoarece aceste modele ar trebui sa ruleze peste milioane de interogari si fragmente diferite pe secunda pentru a alimenta cautarea pe web, chiar si 77 ms pe inferenta au ramas prohibitive la scara de cautare pe web, necesitand zeci de mii de servere sa livreze o singura imbunatatire a cautarii.
Folosind GPU-urile masinii virtuale Azure pentru a obtine un randament de inferenta de 800x
Una dintre diferentele majore dintre transformatoare si arhitecturile DNN anterioare este ca se bazeaza pe calcul paralel masiv in loc de procesare secventiala. Avand in vedere ca arhitectura unitatii de procesare grafica (GPU) a fost proiectata pentru calcul paralel cu randament ridicat, masinile virtuale (VM) din seria N ale Azure cu acceleratoare GPU incorporate au fost o potrivire naturala pentru accelerarea acestor modele de transformatoare. Am decis sa incepem cu masina virtuala NV6 in primul rand din cauza costurilor mai mici si a disponibilitatii regionale. Doar executand modelul BERT cu trei straturi pe acel VM cu GPU, am observat o latenta de servire de 20 ms (aproximativ 3x imbunatatire). Pentru a imbunatati in continuare eficienta de servire, am colaborat cu NVIDIA pentru a profita din plin de arhitectura GPU si am re-implementat intregul model folosind API-urile TensorRT C ++ si bibliotecile CUDA sau CUBLAS, inclusiv rescrierea straturilor de incorporare, transformator si iesire. NVIDIA a contribuit, de asemenea, cu pluginuri eficiente pentru transformatoare CUDA, inclusiv softmax, GELU, normalizare si reducere.
Am comparat modelul GPU optimizat TensorRT pe aceeasi masina virtuala Azure NV6 si am reusit sa furnizam un lot de patru inferente in 9 ms, o accelerare a latentei de 8x si o imbunatatire a randamentului de 34x comparativ cu modelul fara accelerare GPU. Apoi am exploatat Tensor Cores cu precizie mixta pe o masina virtuala NC6s_v3 pentru a optimiza si mai mult performanta, comparand o dimensiune a lotului de 64 inferente la 6 ms (~ 800x imbunatatirea randamentului comparativ cu CPU).
Transformarea experientei de cautare Bing la nivel mondial utilizand scara globala Azure
Cu aceste optimizari GPU, am reusit sa folosim peste 2000 de masini virtuale GPU Azure in patru regiuni pentru a furniza peste 1 milion de inferente BERT pe secunda in intreaga lume. VM-urile GPU din seria N Azure sunt esentiale pentru a permite incarcari de lucru AI transformative si imbunatatiri ale calitatii produselor pentru Bing cu disponibilitate ridicata, agilitate si economii semnificative de costuri, mai ales ca modelele de invatare profunda continua sa creasca in complexitate. Plasarea noastra a fost foarte clara, chiar si organizatiile mari, cum ar fi Bing, isi pot accelera volumul de lucru AI folosind masini virtuale din seria N pe Azure cu accelerare GPU incorporata. Furnizarea acestui tip de inferenta AI la scara globala fara GPU-uri ar fi necesitat un numar exponential mai mare de VM-uri bazate pe CPU, care in cele din urma ar fi devenit prohibitive din punct de vedere al costurilor. De asemenea, Azure ofera clientilor agilitatea de a implementa imediat mai multe tipuri de GPU-uri, ceea ce ar fi durat luni de zile daca ar fi sa instalam GPU-uri la fata locului. Masinile virtuale din seria N au fost esentiale pentru capacitatea noastra de a optimiza si livra modele avansate de invatare profunda pentru a imbunatati cautarea Bing, disponibila astazi la nivel global.
Disponibilitatea generala a seriei N
Azure ofera un portofoliu complet de capabilitati ale masinilor virtuale pe liniile de produse din seria NC, ND si NV. Aceste masini virtuale sunt proiectate pentru scenarii de aplicatii pentru care accelerarea GPU este obisnuita, cum ar fi incarcarile de lucru cu calcul intensiv, grafic intens si vizualizare.
- Masinile virtuale din seria NC sunt optimizate pentru aplicatii intensive in calcul si in retea.
- Masinile virtuale din seria ND sunt optimizate pentru instruirea si inferenta scenariilor de invatare profunda.
- Masinile virtuale din seria NV sunt optimizate pentru vizualizare, streaming, jocuri, codificare si scenarii VDI.
Consultati blogul nostru Supercomputing19 pentru adaugari recente de produse la masinile virtuale din seria ND si NV.
Afla mai multe
Alaturati-va la Supercomputing19 pentru a afla mai multe despre calatoria noastra de optimizare Bing, folosind GPU-uri Azure.
malena anal rocco martina smeraldi porno video
gilda porn martina smeraldi pornostar
michelle ferrari giada martina smeraldi priscilla
girl a viterbo martina smeraldi priscilla salerno
mature siena martina smeraldi pussy
rossella visconti porn martina smeraldi rocco porn
kelly stafford pornstar martina smeraldi scopa
xxx full hd martina smeraldi scopata
terni porno martina smeraldi sex
when girls play porn martina smeraldi video
xxx tre martina smeraldi video hard
pornstar malena martina smeraldi video hot
rocco siffredi live show martina smeraldi video porn
valentina nappi suck martina smeraldi video porno
anastasia brokelyn porn martina smeraldi video xxx
patty di novara martina smeraldi videos
video porno milanese martina smeraldi xnxx
doll xxx martina smeraldi xxx
rocco siffredixxx martina smeraldi you porn
entoxcento martina stella feet








