Acasă Chicavideo Folosind Deep Learning pentru a clasa automat milioane de imagini de hotel

Chicavideo

Folosind Deep Learning pentru a clasa automat milioane de imagini de hotel

151

La idealo.de am instruit doua retele neuronale profunde pentru a evalua calitatea estetica si tehnica a imaginilor ????????????

Vizualizari estetice din modelul nostru instruit (estetica scazuta spre inalta de la stanga la dreapta)

La idealo.de (cel mai important site de comparatie a preturilor din Europa si unul dintre cele mai mari portaluri de pe piata germana de comert electronic) oferim una dintre cele mai bune comparatii de preturi disponibile la hotel. Pentru fiecare hotel primim zeci de imagini si ne confruntam cu provocarea de a alege cea mai „atractiva” imagine pentru fiecare oferta pe paginile noastre de comparatie a ofertelor, deoarece fotografiile pot fi la fel de importante pentru rezervari ca si recenziile. Avand in vedere ca avem milioane de oferte hoteliere, ajungem cu peste 100 de milioane de imagini pentru care avem nevoie de o evaluare a „atractivitatii”.

Am abordat necesitatea evaluarii automate a calitatii imaginii prin implementarea unui clasificator estetic si tehnic al calitatii imaginii bazat pe lucrarea de cercetare Google „NIMA: Neural Image Assessment”. NIMA este alcatuit din doua retele neuronale convolutionale (CNN) care urmaresc sa prezica calitatea estetica si, respectiv, tehnica a imaginilor. Modelele sunt instruite prin invatarea prin transfer, unde CNN-urile pre-antrenate ImageNet sunt ajustate pentru fiecare sarcina de clasificare a calitatii.

In acest articol, va vom prezenta abordarea si cunostintele noastre de formare pe care le-am obtinut de-a lungul procesului. Vom incerca apoi sa aruncam o lumina asupra a ceea ce au invatat de fapt modelele antrenate vizualizand greutatile filtrului convolutional si nodurile de iesire ale modelelor noastre antrenate.

Am publicat modelele si codul instruit pe GitHub. Codul furnizat va permite sa utilizati oricare dintre CNN-urile pre-instruite din Keras, asa ca asteptam cu nerabdare contributii care exploreaza alte CNN-uri pentru evaluarea calitatii imaginii ????

Clasificatorii estetici si tehnici au fost instruiti intr-o configuratie de invatare prin transfer. Am folosit arhitectura MobileNet cu greutati ImageNet si am inlocuit ultimul strat dens din MobileNet cu un strat dens care produce 10 clase (scoruri 1 la 10).

Pierderea Pamantului

O caracteristica speciala a NIMA este utilizarea pierderii Moverului Pamantului (EML) ca functie de pierdere, spre deosebire de pierderea de entropie incrucisata categorica (CCE), care se aplica in general in sarcinile de clasificare Deep Learning. EML poate fi inteles ca cantitatea de „pamant” care trebuie mutata pentru a face doua distributii de probabilitate egale. Un atribut util al acestei functii de pierdere este ca capteaza ordinea inerenta a claselor. Pentru evaluarile noastre de calitate a imaginii, scorurile 4, 5 si 6 sunt mai mult legate de 1, 5 si 10, adica am dori sa pedepsim o predictie de 4 mai mult daca scorul adevarat este 10 decat atunci cand scorul adevarat este 5. CCE nu surprinde aceasta relatie si de multe ori nu este necesara in sarcina de clasificare a obiectelor (de exemplu, clasificarea gresita a unui copac ca un caine este la fel de rea precum clasificarea acestuia ca o pisica).

Pentru a utiliza EML, avem nevoie pentru fiecare imagine de o distributie a evaluarilor in toate cele zece clase de scor. Pentru setul de date AVA, care este utilizat pentru instruirea clasificarilor estetice, aceste etichete de distributie sunt disponibile. Pentru setul de date TID2013, utilizat pentru clasificarile tehnice, am dedus distributia din scorul mediu dat pentru fiecare imagine. Pentru mai multe detalii despre deducerea distributiei noastre, consultati repo GitHub.

inazuma eleven xxx vecinasxxx
tetonas españolas follando sin querer
fire force hentai me follo a mi tia
necrofilia xxx www.maduras.con
orgasmos extremos pajas entre amigos
videos porno corridas incesto asiatico
casadas muy putas se le marca el coño
follando en el parque cartoon xxx
mi madre me folla hermanos rusos follando
sara rossi fakings follando en el parque
fiestas xxx maduras folladas por el culo
videos eroticos italianos abuelasputas
porno iberico folladas en el metro
peliculas eroticas gratis en español se folla a su compañero de piso
shakira follando pornolesvianas
abuelas y nietos xxx concursos nudistas
porno xxxxx videos eroticos italianos
orgias xxx casadas muy putas
coñitos violacion real porno
tetonas gratis videos gay xx

Etape de reglare fina

Antrenam modelele intr-un proces in doua etape:

Incepem prin antrenarea numai a ultimului strat dens cu o rata de invatare mai mare pentru a ne asigura ca greutatile aleatorii nou adaugate sunt ajustate la greutatile convolutionale ImageNet. Fara aceasta perioada de ardere, riscati sa jonglati cu greutatile convolutionale la inceputul antrenamentului si, prin urmare, sa incetiniti procesul de antrenament.
Dupa perioada de ardere, antrenam toate greutatile in CNN cu o rata de invatare scazuta.

Atat pentru modelul estetic, cat si pentru cel tehnic, pierderile de tren si de validare se scad dupa 5 si respectiv 25 de epoci. Acesta este un bun indicator al faptului ca greutatile nou adaugate au invatat sa clasifice estetica si calitatea tehnica cat mai bine posibil si este timpul sa incepeti pregatirea tuturor greutatilor.

Pentru clasificatorul estetic, observam o scadere semnificativa a pierderilor odata ce incepem sa antrenam si greutatile convolutionale (linii intrerupte in graficul din stanga de mai sus), indicand faptul ca ajustam greutatile convolutionale destul de putin pentru sarcina de clasificare estetica. Pentru clasificatorul tehnic, scaderea pierderii este mai mica, ceea ce la inceput este contra-intuitiv, deoarece calitatea tehnica a imaginii ar trebui sa fie agnostica a obiectelor, iar greutatile ImageNet sunt optimizate pentru a recunoaste obiecte. Scaderea mica se poate datora ratei foarte mici de invatare care este necesara pentru a regulariza instruirea pe setul de date mic TID2013.

Puteti gasi toti hiper-parametrii utilizati pentru instruire pe repo GitHub.

Predictii MobileNet estetice

Predictii tehnice MobileNet

Predictiile de mai sus arata ca clasificatorul estetic claseaza corect imaginile de la foarte estetic (imaginea din stanga cu apus) la cel mai putin estetic (camera de hotel plictisitoare din dreapta). In mod similar pentru clasificarile tehnice, clasificatorul prezice scoruri mai mari pentru imaginile nedistorsionate (prima si a patra imagine din stanga), comparativ cu imaginile cu compresie jpeg (a doua si a cincea) sau neclar (a treia si a sasea).

Pentru a obtine o mai buna intelegere a modului in care CNN evalueaza calitatea imaginii estetice, am folosit pachetul Lucid pentru a vizualiza greutatile filtrelor convolutionale invatate si nodurile de iesire din Aesthetic MobileNet. Minunata postare pe blogul Feature Visualization ofera o prezentare interactiva excelenta a tehnicilor de vizualizare CNN de ultima generatie.

Vizualizari filtru stratul 23 (ImageNet MobileNet in randul de sus, Aesthetic MobileNet in randul de jos)

Straturile convolutionale anterioare sunt in general asociate cu structuri mai simple, cum ar fi marginile, modelele de unda si grilele. Imaginile de mai sus prezinta modele asociate celor sase filtre din stratul 23 al MobileNet – cele sase imagini din randul superior sunt generate din greutatile originale MobileNet ImageNet (ImageNet MobileNet), in timp ce imaginile randului inferior sunt generate din greutatile MobileNet reglate fin pe setul de date AVA pentru evaluari estetice (Aesthetic MobileNet). Din vizualizarile filtrului putem observa ca filtrele convolutionale anterioare nu sunt mult afectate de-a lungul reglarii fine, deoarece sunt foarte asemanatoare cu cele originale.

Vizualizari filtru Strat 51 (ImageNet MobileNet in randul de sus, Aesthetic MobileNet in randul de jos)

Pentru filtrele convolutionale medii de la stratul 51, formele invatate sunt mai complexe si seamana cu structuri impletite, cum ar fi blana sau o retea cu ochi. Chiar si la acest nivel, Aesthetic MobileNet este foarte asemanator cu ImageNet MobileNet.

Vizualizari de filtru Layer 79 (ImageNet MobileNet in randul de sus, Aesthetic MobileNet in randul de jos)

Straturile convolutionale ulterioare prezinta structuri si mai complexe care seamana cu animalele si formele asemanatoare copacilor. Putem vedea ca filtrele pentru Aesthetic MobileNet difera semnificativ de cele ImageNet, deoarece acestea par a fi mai putin focalizate pe obiecte, de exemplu, nu exista forme de animale in al patrulea filtru din stanga.

De asemenea, am generat vizualizari pentru nodurile de iesire ale Aesthetic MobileNet, care reprezinta probabilitatile scorurilor de la 1 la 10. Vizualizarile arata astfel o imagine „reprezentativa” care este asociata fiecarui scor.

Vizualizari noduri de iesire Aesthetic MobileNet (scor 1 la 10 de la stanga sus la dreapta jos in ordine rand ascendent)

Este dificil de interpretat vizualizarile nodului de iesire, la fel de mult pe cat este dificil de definit estetica. In orice caz, vizualizarile pentru scoruri mai mici par a fi mai putin colorate si diversificate, in timp ce scorurile mai mari sunt asociate cu forme mai colorate si dramatice. Imaginea pentru scorul 10 pare sa semene cu un peisaj cu un fundal de cer, un motiv in general asociat cu estetica inalta.

In acest articol, am prezentat provocarea noastra de afaceri de a evalua automat calitatea imaginilor. Am aratat ca modelele tehnice si estetice instruite clasifica cu succes imaginile in functie de estetica si calitatea tehnica. Am explorat in continuare greutatile invatate CNN ale modelului estetic prin vizualizarea filtrelor convolutionale si a nodurilor de iesire si am ajuns la concluzia ca reglarea fina afecteaza in primul rand greutatile convolutionale ulterioare.

Reglarea fina a retelelor neuronale profunde este o strategie excelenta pentru a aborda multe probleme de viziune pe computer cu care se confrunta companiile. Cu toate acestea, clasificarile acestor modele, cu milioanele lor de parametri, sunt in general dificil de interpretat si speram sa fi aruncat o lumina asupra acestei cutii negre cu analiza noastra de vizualizare.

Va rog sa-mi spuneti daca ati gasit acest articol util (????????), astfel incat si altii sa il poata gasi si sa il impartaseasca prietenilor dvs. Ma puteti urmari aici pe Medium (Christopher Lennan) sau pe Twitter (@chris_lennan) pentru a fi la curent cu munca mea. Multumesc mult pentru lectura!

Folosind Deep Learning pentru a clasa automat milioane de imagini de hotel

La idealo.de am instruit doua retele neuronale profunde pentru a evalua calitatea estetica si tehnica a imaginilor ????????????

Pierderea Pamantului

Etape de reglare fina

Populare

Afacere proprie, angajat la stat sau angajat la privat? Pro &...

Cum alegi cel mai bun brad de Crăciun?

Afla cum iti poti lansa o mica afacere folosind un spatiu...

Top 10 cele mai supraevaluate filme din toate timpurile

10 regizori care au facut un film de groaza si au...

10 documentare care au schimbat perceptia publicului

Top 10 interviuri controversate cu celebritati din toate timpurile

Top 10 cele mai memorabile momente ale premiilor Oscar

Cum se schimba viata atunci cand intri in cercurile sociale ale...

10 povesti ciudate din lumea rap pe care sa le cunosti