Ning Xie, Farley Lai, Derek Doran, Asim Kadav
SNLI-VE este setul de date propus pentru sarcina de reducere vizuala (VE) investigata in Sarcina de reducere a vizualitatii pentru invatarea limbajului vizual-bazata pe atelierul NeurIPS 2018 ViGIL). Consultati lucrarea noastra completa pentru analize si evaluari detaliate.
Clasament
Clasare Test Precizie Sursa Data 1 78.98% UNITER 25.09.2019 2 73.02%, 73.18%, 72.52% e-SNLI-VE-2.0 04/07/2020 Linia de baza 71.16% EVE-Image 26.11.2018
NOTA
e-SNLI-VE-2.0 reeticheteaza dev, precum si fragmentele de testare ale clasei neutre si evalueaza performanta rezultata in ordinea configuratiilor originale, corectie val si corectie val / test.
Prezentare generala
SNLI-VE este construit deasupra SNLI si Flickr30K. Problema pe care VE incearca sa o rezolve este sa rationeze despre relatia dintre o premisa a imaginii Pimage si o ipoteza text Htext .
In mod specific, avand in vedere o imagine ca premisa si o propozitie de limbaj natural ca ipoteza, sunt atribuite trei etichete (implicare, neutru si contradictie) pe baza relatiei transmise de ( Pimage , Htext )
- legatura este valabila daca exista suficiente dovezi in Pimage pentru a concluziona ca Htext este adevarat.
- contradictia este valabila daca exista suficiente dovezi in Pimage pentru a concluziona ca Htext este fals.
- In caz contrar, relatia este neutra, ceea ce inseamna ca dovezile din Pimage sunt insuficiente pentru a trage o concluzie despre Htext .
Exemple din SNLI-VE
Statistici SNLI-VE
Mai jos sunt cateva statistici ale setului de date evidentiate, detalii pot fi gasite in lucrarea noastra.
Distributie pe Split
Detaliile datelor despre divizarea trenului, dezvoltatorului si testului sunt prezentate mai jos. Instantele a trei etichete (implicare, neutru si contradictie) sunt distribuite uniform pentru fiecare impartire.
pareja follando en la playa jovencitas peludas follando
enanas tetonas ancianas españolas follando
tetudas españolas porno gratis viejas
porno andaluz sexo playa nudista
sexo gratis incesto videos de maduras guarras
porno bix gitanas xxx
videos ponos porno forzadas
jovencitas españolas follando por dinero intercambio de parejas en español
mamadas gay halle berry desnuda
mama me folla potno
se folla a relatos sexo con maduros
tetonas cubanas porno andaluz
videdos porno madura se corre
incestos gays casadas cachondas
pilladas meando parejas liberales españolas
las mejores folladas maduras pajeando
follando real super mamadas
me hace una paja actores porno gay españoles
transexual española follando potro de bilbao
casadas follando por dinero seso gratis
Train Dev Test #Image 29783 1000 1000 #Entailment 176932 5959 5973 #Neutral 176045 5960 5964 # Contradiction 176550 5939 5964 Vocabulary Size 29550 6576 6592
Compararea setului de date
Mai jos este o comparatie a setului de date intre SNLI-VE, VQA-v2.0 si CLEVR.
SNLI-VE VQA-v2.0 Dimensiunea partitiei CLEVR : Training 529527 443757 699989 Validare 17858 214354 149991 Test 17901 555187 149988 Lungime intrebare: Medie 7,4 6,1 18,4 Mediana 7 6 17 Mod 6 5 14 Max 56 23 43 Dimensiune vocabular 32191 19174 87
Distributia lungimii intrebarii
Intrebarea aici pentru SNLI-VE date este ipoteza. Asa cum se arata in figura, lungimea intrebarii din setul de date SNLI-VE este distribuita cu o coada destul de lunga.
Avertismente
Pentru a verifica calitatea setului de date SNLI-VE, am prelevat la intamplare 217 de perechi din toate cele trei impartiri (565286 perechi in total). Dintre toate perechile esantionate, 20 (aproximativ 9,2%) exemple sunt etichetate incorect, dintre care majoritatea se afla in clasa neutra. Acest lucru este in concordanta cu analiza raportata de GTE in tabelul sau 2.
Este demn de remarcat faptul ca setul de date SNLI original nu este perfect etichetat, cu 8,8% din datele esantionate nu li s-a atribuit o eticheta aurie, ceea ce implica dezacordul in cadrul etichetatorilor umani. SNLI-VE nu face exceptie, dar credem ca este un scenariu comun in alte seturi de date la scara larga. Cu toate acestea, daca calitatea setului de date este o preocupare majora pentru dvs., va sugeram sa renuntati la clasele neutre si sa folositi doar exemple de implicare si contradictie.
SNLI-VE Creatie
snli_ve_generator.py genereaza setul de date SNLI-VE in diviziuni de tren, dev si test cu seturi de imagini disjuncte. Fiecare intrare contine un camp Flickr30kID pentru a fi asociat cu ID-ul original al imaginii Flickr30K.
snli_ve_parser.py analizeaza presupune in SNLI-VE pentru aplicatii si poate fi revizuit gratuit.
Urmati instructiunile de mai jos pentru a configura mediul si a genera SNLI-VE:
-
Setati mediul conda si dependentele
conda create -n vet37 python = 3.7 conda activate vet37 conda install jsonlines # conda install -c NECLA-ML ml -
Clonati repo
git clone https://github.com/necla-ml/SNLI-VE.git -
Generati SNLI-VE in date /
cd SNLI-VE python -m vet.tools.snli_ve_generator.py -
Descarcati seturi de date dependente: caracteristici Flickr30K, Entitati, SNLI si RoI
cd data ./download # y la toate daca este necesar
Extensii SNLI-VE
Setul de date Flickr30k Entities este o extensie la Flickr30k, care contine adnotari RoI si entitati impamantate.
Este usor sa extindeti setul de date SNLI-VE cu entitatile Flickr30k daca sunt necesare adnotari cu granulatie fina in experimentele dvs.
Bibtex
Prima este lucrarea noastra completa, in timp ce a doua este versiunea atelierului ViGiL.
Va multumim pentru interesul dvs. fata de setul nostru de date!
Va rugam sa ne contactati pentru orice intrebari, comentarii sau sugestii!








