Fotografie de SwapnIl Dwivedi

Realizam progrese impresionante in primii ani de dezvoltare GAN. Gata cu imaginile faciale de dimensiunea stampilei, precum cele din filmele de groaza. In 2017, GAN a produs 1024 × 1024 de imagini care pot pacali un cercetas de talente.

In urmatorii ani, vom vedea probabil videoclipuri de inalta calitate generate de GAN-uri. Aplicatiile comerciale vor veni! Ca parte a seriei GAN, analizam cateva aplicatii interesante si speram ca acestea vor deveni inspiratia pentru aplicatia dvs. GAN.

Array

Creati personaje Anime

Dezvoltarea jocului si productia de animatie sunt costisitoare si angajeaza multi artisti de productie pentru sarcini relativ de rutina. GAN poate genera si coloriza automat personaje Anime.

Catre crearea automata a personajelor Anime cu Retele Adversare Generative

Generatorul si discriminatorul se compun din mai multe straturi de straturi convolutionale, normalizare batch si ReLU cu conexiuni skip.

Sursa

Pose Guided Person Generation Image

Cu o intrare suplimentara a pozitiei, putem transforma o imagine in diferite ipostaze. De exemplu, imaginea din dreapta sus este adevarul la sol, in timp ce dreapta jos este imaginea generata.

Coloana de rezultate rafinate de mai jos reprezinta imaginile generate.

Array

Pose Guided Person Generation Image

Designul se compune dintr-un generator de imagini in doua etape si un discriminator. Generatorul reconstruieste o imagine folosind metadatele (poza) si imaginea originala. Discriminatorul foloseste imaginea originala ca parte a etichetei introduse intr-un design CGAN.

Pose Guided Person Generation Image

CycleGAN

GAN-urile de transfer intre domenii vor fi probabil primul lot de aplicatii comerciale. Aceste GAN transforma imaginile dintr-un domeniu (sa spunem peisaj real) in alt domeniu (picturi Monet sau Van Gogh).

CycleGAN

De exemplu, poate transforma imagini intre zebre si cai.

Array

CycleGAN

CycleGAN construieste 2 retele G si F pentru a construi imagini de la un domeniu la altul si in directia inversa. Foloseste discriminatorii D pentru a critica cat de bine sunt imaginile generate. De exemplu, G converteste imaginile reale in pictura in stil Van Gogh, iar Dy este folosit pentru a distinge daca imaginea este reala sau generata.

Domeniul A ➝ Domeniul B:

Repetam ​​procesul in sens invers Domeniul B➝ Domeniul A:

StarGAN

StarGAN este o traducere imagine-imagine pentru un domeniu in altul. De exemplu, avand in vedere o fata fericita, vrem sa o transformam intr-o fata infricosatoare.

Sursa

In (b), generatorul genereaza o imagine falsa pe baza unei imagini de intrare si a unei etichete de domeniu tinta (sa spunem suparat). In (c), avand in vedere aceasta imagine falsa si domeniul original al imaginii (sa spunem fericit), aceasta reconstruieste imaginea folosind generatorul. In (d), transmitem discriminatorului imagini reale si false pentru a le eticheta drept reale sau nu, precum si clasificarea domeniului sau. Functia de cost va implica erori de reconstructie, precum si costul discriminatorului in identificarea imaginilor si a etichetelor acestora.

Sursa

PixelDTGAN

Sugerarea de marfuri bazate pe imagini de vedete a fost populara pentru bloggerii de moda si pentru comertul electronic. PixelDTGAN creeaza imagini si stiluri vestimentare dintr-o imagine.

PixelDTGAN

PixelDTGAN

Super rezolutie

Creati imagini de super-rezolutie de la rezolutia mai mica. Acesta este un domeniu in care GAN prezinta rezultate foarte impresionante, cu posibilitati comerciale imediate.

SRGAN

Similar multor modele GAN, compune din mai multe straturi de strat convolutional, normalizare in serie, reLU avansat si conexiuni de omitere.

SRGAN

Cresterea progresiva a GAN-urilor

GAN progresiv este probabil unul dintre primele GAN care prezinta o calitate a imaginii de tip comercial. Mai jos sunt 1024 × 1024 imagini cu aspect de celebritate create de GAN.

Cresterea progresiva a GAN-urilor

Aplica strategia divizarii si cuceririi pentru a face antrenamentul mult mai fezabil. Straturile de straturi de convolutie sunt antrenate odata pentru a crea imagini cu rezolutie 2 ×.

In 9 faze, se genereaza o imagine de 1024 × 1024.

Cresterea progresiva a GAN-urilor

StyleGAN2

StyleGAN2 genereaza imagini de inalta rezolutie.

Sursa

Sinteza imaginilor de inalta rezolutie

Aceasta nu este o segmentare a imaginii! Este inversul, generand imagini dintr-o harta semantica. Colectarea probelor este foarte costisitoare. Am incercat sa completam setul de date de instruire cu date generate pentru a reduce costurile de dezvoltare. Va fi la indemana sa generati videoclipuri in antrenarea masinilor autonome, mai degraba decat sa le vedeti croaziera in cartierul dvs.

pix2pixHD

Proiectarea retelei:

pix2pixHD

pix2pixHD

GauGAN

GauGAN sintetizeaza imagini fotorealiste avand un aspect semantic de intrare.

Modificat din sursa

Text catre imagine ( StackGAN )

Textul in imagine este una dintre aplicatiile anterioare ale transferului de domenii GAN. Introducem o propozitie si generam mai multe imagini care corespund descrierii.

StackGAN

Sursa

Sinteza text-imagine

O alta implementare populara:

Generativ Adversarial Text to Image Synthesis

Sinteza fetei

Fete de sinteza in diferite ipostaze: Cu o singura imagine de intrare, cream fete in unghiuri de vizualizare diferite. De exemplu, putem folosi acest lucru pentru a transforma imagini care vor fi mai usoare pentru recunoasterea fetei.

TP-GAN

TP-GAN

Imaginea in pictura

Imaginile de reparatii au fost un subiect important in urma cu zeci de ani. GAN este folosit pentru a repara imagini si a umple partea lipsa cu „continut” creat.

Codificator de context

Aflati distributia comuna

Este scump sa creezi GAN-uri cu diferite combinatii de caractere faciale P (blond, feminin, zambitor, cu ochelari) , P (maro, masculin, zambitor, fara ochelari) etc … Blestemul dimensionalitatii face ca numarul GAN-urilor sa creasca exponential. In schimb, putem invata distributia individuala a datelor si le putem combina pentru a forma distributii diferite. adica diferite combinatii de atribute.

CoGAN

CoGAN

DiscoGAN

DiscoGAN ofera stil de potrivire: multe aplicatii potentiale. DiscoGAN invata relatia intre domenii fara etichete sau imperechere. De exemplu, transfera cu succes stilul (sau modelele) dintr-un domeniu (geanta de mana) in altul (pantof).

DiscoGAN

DiscoGAN si CycleGAN sunt foarte asemanatoare in proiectarea retelei.

DiscoGAN

Pix2Pix

Pix2Pix este o traducere imagine la imagine care este citata frecvent in hartia GAN intre domenii. De exemplu, converteste o imagine de satelit intr-o harta (in stanga jos).

pix2pix

DTN

Crearea Emoji din imagini.

DTN

DTN

Sinteza texturii

MGAN

Editarea imaginilor ( IcGAN )

Reconstruiti sau editati imagini cu atribute specifice.

IcGAN

IcGAN

Imbatranirea fetei ( Age-cGAN )

Age-cGAN

Age-cGAN

DeblurGAN

DeblurGAN efectueaza deblurrarea miscarii.

Sursa

Editor foto neuronal

Editarea imaginilor bazate pe continut: de exemplu, extindeti banda de par.

Editor foto neuronal

Rafineaza imaginea

Detectarea obiectelor

Aceasta este o aplicatie in imbunatatirea unei solutii existente cu GAN.

GAN perceptiv

Imbinarea imaginilor

Amestecarea imaginilor.

GP-GAN

Generare video

Creati o noua secventa video. Recunoaste ceea ce este fundal si creeaza o noua secventa de timp pentru actiunea din prim-plan.

Generati obiecte 3D

Aceasta este o hartie adesea citata in crearea obiectelor 3D cu GAN.

3DGAN

3DGAN

Generarea muzicii

GAN poate fi aplicat domeniului non-imagine, cum ar fi compunerea muzicii.

MidiNet

MidiNet

Medical (detectarea anomaliilor)

GAN se poate extinde si la alte industrii, de exemplu medicale in detectarea tumorilor.

AnoGAN

AnoGAN

Acest articol prezinta o parte din aplicatia GAN. Pentru cei interesati de studiul suplimentar al GAN:

Partea 1: Concentrati-va asupra modului in care GAN-urile sunt aplicate pentru a rezolva problemele de invatare profunda si o privire de ansamblu asupra motivului pentru care este atat de greu sa instruiti GAN-urile.

Partea 2: O prezentare generala a rezolvarii problemelor de formare in GAN.

Toate articolele din aceasta serie: