Ilustratie de Playmetric pentru Google

De David Weinberger

AI Outside In este o coloana a scriitorului in resedinta al PAIR, David Weinberger, care ofera perspectiva sa externa asupra ideilor cheie in invatarea automata. Opiniile sale sunt ale sale si nu reflecta neaparat cele ale Google.

Sa presupunem ca doriti ca un sistem de invatare automata sa sugereze nume de vopsea pe baza oricarei culori pe care o specificati. Acest lucru a fost facut hilar de Janelle Shane – „roz burf”, „ombilic bronz” – dar sa spunem ca vrem sa o facem mai serios (si fara nicio referire la modul in care Shane a facut-o de fapt).

Array

Invatarea automata, cel putin din tipul obisnuit numit „invatare supravegheata”, invata din datele pe care le oferiti, astfel incat mai intai doriti sa adunati un set mare de culori carora oamenii le-au aplicat diferite etichete. S-ar putea incepe prin a extrage culorile vopselei si numele acestora din cataloagele online ale tuturor furnizorilor de vopsea pe care ii puteti gasi. Faceti acest lucru pana cand aveti mii de culori numite.

Acum aveti sistemul dvs.

Array

de invatare automata pentru a vedea ce poate descoperi despre relatiile dintre cuvinte si culori fara nicio indrumare de la dvs. In acest caz imaginar, tot ceea ce va sti sistemul este ca cuvantul „petrecere” a fost aplicat la 150 de culori, dintre care majoritatea sunt roz, ca „amurg” a fost aplicat la 200 de culori, majoritatea fiind supuse, „regale”. a fost aplicat la 300 de culori care nu par sa aiba mult de-a face unul cu celalalt, „fericit” nu a fost niciodata aplicat niciunei nuante de gri si asa mai departe.

Desigur, aceasta caracterizare nu era tocmai exacta.

Array

Sistemele de invatare automata nu stiu ce culori sau cuvinte sunt. Tot ce stiu sunt numere. Culorile sunt usor de transformat in numere, deoarece pot fi exprimate ca amestecuri de diferite niveluri cuantificabile de rosu, verde si albastru, ca in standardul RGB care atribuie fiecareia dintre aceste culori un numar intre 0 si 255. De exemplu, un teal – specimenul -ish poate avea 66 de parti rosu, 244 parti verde si 209 parti albastru.

(Culorile RGB reprezinta lumina, nu vopseaua, deci nu se amesteca asa cum ne asteptam. Incercati-le aici.)

Un utilitar pentru conversia culorilor la valorile lor RGB. Multumesc, RapidTables !

Dar cum atribuiti numere cuvintelor?

Tu nu. Lasati invatarea automata sa o faca printr-un proces numit „incorporare”. Este destul de minunat.

Mai intai trebuie sa transformati cuvintele in elementele lor de constructie, astfel incat sistemul sa poata recunoaste conexiuni care ar putea avea sens. De exemplu, doriti sa suspecteze ca „marea”, „marea” si „peisajul marin” toate au legatura una cu alta. Deci, sistemul va imparti aceste cuvinte in jetoanecare reprezinta „marea”, „briza” si „peisajul” si vor cauta corelatii intre ele. Unele dintre corelatii pot fi destul de slabe. De exemplu, in timp ce cuvintele „joc de cai”, „curse de cai” si „hrean” contin toate acelasi „cal” simbolic, un sistem de invatare automata ar putea descoperi din utilizare si context ca cuvintele sunt doar vag legate. (Retineti ca sistemele de invatare automata a denumirii culorilor lui Janelle Shane nu par sa aiba cuvinte simbolizate, ci le-au tratat ca niste siruri de litere simple. De aceea sistemul a venit cu atatea cuvinte non-cuvinte si cuvinte apropiate.)

Acum veti lasa invatarea automata pe culori si pe etichetele simbolizate ale acestora. Va observa relatii simple intre culori si nume, cum ar fi faptul ca eticheta „roz” pare sa fie aplicata culorilor care au rosii foarte mari, verde foarte scazut si albastru destul de ridicat. Sistemul poate observa, de asemenea, ca multe culori cu albastru ridicat si verde, care variaza de la mijloc la inalt, creeaza o culoare albastru-cer si au nume care includ adesea cuvintele „cer”, „insorit”, „zi” si „deasupra”. ” Si noteaza ca „insorit” apare, de asemenea, in culori care au rosii si verzi foarte mari, deoarece aceste doua fac galben.

Deoarece sistemul de invatare automata observa aceste asemanari, atribuie fiecarui cuvant un punct intr-un spatiu tridimensional. Cu exceptia celor trei dimensiuni, nu sunt suficiente pentru a o pozitiona in raport cu toate celelalte cuvinte, asa ca imaginati-va un spatiu de o mie de dimensiuni. (Spuneti-mi daca reusiti sa va imaginati acest lucru si asigurati-va ca includeti o imagine 🙂 „Cerul”, „soarele”, „ziua” si „deasupra” sunt probabil pozitionate unul langa celalalt din cauza asemanarilor culorile pe care le denumesc (printre altele). „Sunny” va fi, de asemenea, aproape de culorile galben-ish. Cat de aproape depinde de cat de des este folosit pentru culori similare. Apropierea indica relatiile descoperite de sistemul de invatare automata.

Invatarea automata poate depasi asocieri simple de culori. S-ar putea observa ca „pal” si „spalat” sunt utilizate ambele pentru culori mai deschise, indiferent de nuante. Se poate observa ca „mediteranean”, „pastel” si „vara” sunt adesea folosite atunci cand doua dintre cele trei culori RGB constituente sunt ridicate, dar a treia este in mijloc. Toate acestea pot afecta pozitia atribuita fiecarui cuvant, pentru fiecare bit de informatie poate si ar trebui sa afecteze locul in care se afla cuvantul in raport cu toti ceilalti.

In limbajul informaticii, fiecare dintre aceste tipuri de relatii – puterea relativa a fiecareia dintre cele trei nuante constitutive, impartirea etichetelor etc. – constituie o „dimensiune”, iar cuvintelor li se va da cate un numar pentru fiecare dimensiune, indicand relatia lor cu celelalte elemente din acea dimensiune. Un sistem de invatare automata ar putea dezgropa mii de dimensiuni – moduri in care datele sunt legate – ducand la atribuirea sutelor de numere diferite fiecarui cuvant. De exemplu, „vara” ar putea fi apropiata numeric de culorile galbene atunci cand se uita la nuante, dar ar putea avea un numar diferit care sa o apropie de „pastel” in ceea ce priveste intensitatile culorilor.

Iata un videoclip prietenos care ilustreaza grafic incorporarea „spatiului cu dimensiuni ridicate”:

de Google PAIR

Dupa ce a eliminat relatiile dintre cuvinte si culori, cuvinte si cuvinte si culori si culori, sistemul va fi acum gata pentru ca un utilizator sa introduca o culoare si sa obtina inapoi cuvintele in care sistemul este cel mai increzator ca sunt asociate cu acea culoare, chiar daca este o culoare pe care sistemul nu a vazut-o niciodata. Sau introduceti cateva cuvinte si s-ar putea sa alcatuiasca o culoare pe care crede ca le reprezinta.

Sistemul poate face aceste conexiuni minunate – si uneori ridicole – intre semnificatii si culori numai pentru ca a inlocuit cuvintele semnificative cu numere si jetoane fara sens. Abia atunci sistemul ar putea gasi semnificatii care sa ne surprinda, sa ne amuze si sa se simta chiar corect.