Acasă Adult69 Teoria informatiei si simetria actualizarilor credintelor – LessWrong 2.0

Adult69

Teoria informatiei si simetria actualizarilor credintelor – LessWrong 2.0

148

Cuprins:

1. Frumoasa simetrie a actualizarii Bayesiene

2. Cote si cote de jurnal: o scurta comparatie

3. Discutii suplimentare de informatii

Rationalitatea se refera la manipularea acestui lucru numit „informatie”. Din fericire, traim intr-o era dupa formularea riguroasa a Teoriei informatiei de catre CE Shannon in 1948, o intelegere de baza a careia te poate ajuta cu adevarat sa te gandesti la convingerile tale, intr-un mod similar, dar complementar teoriei probabilitatii. Intr-adevar, a inflorit ca zona de cercetare exact pentru ca ajuta oamenii din multe domenii ale stiintei sa descrie lumea. Ar trebui sa profitam de asta!

Teoria informatiilor despre evenimente, pe care urmeaza sa le explic, este la fel de dificila ca si probabilitatea liceului. Cu siguranta este mai usor decat teoria informatiei cu multiple variabile aleatorii (care sunt explicate chiar acum pe Wikipedia), chiar daca ecuatiile arata foarte asemanatoare. Daca il cunoasteti deja, acesta poate fi o sursa de explicatii conectabile pentru a va economisi timpul de scriere 🙂

Asa de! Pentru a incepe, ce modalitate mai buna de a motiva teoria informatiei decat de a raspunde la o intrebare despre Bayesianism?

Frumoasa simetrie a actualizarii bayesiene

Factorul prin care observarea A creste probabilitatea B este acelasi cu factorul prin care observarea B creste probabilitatea A. Acest factor este P (A si B) / (P (A) · P (B)), care Voi denota prin pev (A, B) din motivele care urmeaza. Poate varia de la 0 la + infinit si ne permite sa scriem succint teorema lui Bayes in ambele directii:

P (A | B) = P (A) · pev (A, B) si P (B | A) = P (B) · pev (A, B)

Ce inseamna aceasta simetrie si cum ar trebui sa afecteze modul in care gandim?

Un mod minunat de a gandi pev (A, B) este ca o masura multiplicativa a dovezilor reciproce, pe care o voi numi probe reciproce probabilistice ca fiind specifice. Daca pev = 1 daca sunt independenti, daca pev> 1 se fac reciproc mai probabili si daca pev <1 daca se fac reciproc mai putin probabili.

Dar doua moduri de a gandi sunt mai bune decat una, asa ca voi oferi o a doua explicatie, din punct de vedere al informatiilor , pe care o gasesc adesea destul de utila in analiza propriilor credinte:

Permiteti sa examinam un exemplu simplu si sa ne indreptam spre ilustrarea a ceea ce vreau sa spun:

Spuneti ca intorc patru monede corecte cu fetele „0” si „1” pentru a genera un sir binar pe 4 biti, X. Daca va spun ca „X = 1 ???”, in sensul ca prima moneda citeste „1”, acest lucru reduce numarul de posibilitati cu ½. As dori sa spunem aici ca ati obtinut „1 bit of information”. Sa presupunem in schimb ca spun „X incepe cu 01 sau 10”. Acest lucru are cantitativ acelasi efect, prin faptul ca reduce numarul de posibilitati cu ½, deci ar trebui sa fie numit si „1 bit de informatie”. S-ar putea sa numiti prima afirmatie un „bit explicit” prin faptul ca specifica in mod explicit un 1 sau 0 in secventa, dar aceasta este doar o distinctie calitativa . O data, ne intereseaza cantitatea, nu calitatea.

Acum, sa fie A evenimentul “X = 111?” (in cazul in care primii trei biti apar “1”, iar ultimul bit poate fi orice), care are probabilitatea P (A) = 2-3. Daca A este adevarat, dar nu il cunoasteti, trebuie sa observati exact 3 biti independenti (de exemplu, primele 3 monede) pentru a-l confirma. Intuitiv, acesta este cat de incert este A, pentru ca ne spune cat de departe suntem de a confirma A. Pe de alta parte, daca va spun A este adevarat, acum aveti nevoie doar de un bit mai independent pentru a specifica X = 111 ?, deci putem spune ca A a „furnizat 3 biti” de „informatii”. Intuitiv, asa este informatia A. Aceste idei vagi ne indreapta catre urmatoarea definitie:

Valoarea informationala a unui eveniment

Notam si definim valoarea informationala a unui eveniment A (denumit „surprinzator” sau „autoinformare”, dar nu in acest post) prin formula

inf (A): = log½ (P (A)) = -log2 (P (A))

care in exemplul nostru este -log2 (2-3) = 3 biti, la fel cum ne-am dori. Dupa cum s-a sugerat, aceasta cantitate are doua sensuri intuitive diferite, care prin miracolul logicii corespund aceluiasi numar inf (A), masurat in biti:

1) Incertitudine: cati biti independenti sunt necesari pentru a confirma ca A este adevarat.

2) Informativitate: cati biti independenti sunt castigati daca ni se spune ca A este adevarat.

Atentie: valoarea informatiilor nu este „date”, ci mai degraba este un numar care va poate spune cat de incerta sau cat de informativa sunt datele. Fiti in cautarea momentului in care „informatii” inseamna „date” si cand inseamna „valoare informationala”.

Informatii reciproce = dovezi informationale

In continuare, sa fie B evenimentul “X = ?? 11”, deci P (B) = 2-2. Si amintiti-va ca A este evenimentul “X = ?? 11”. Atat A cat si B ne spun ca a treia pozitie scrie „1”, care este independent de celelalte biti explicite pe care le specifica. In acest sens, exista 1 bit de “redundanta” in respectarea atat a A cat si a B. Observati ca A furnizeaza 3 biti, B furnizeaza 2 biti, dar „A si B” specifica impreuna ca „X = 1111” care este doar 4 biti , si 3 + 2-4 = 1. Astfel, putem calcula „redundanta” ca

inf (A) + inf (B) – inf (A si B),

motiv pentru care aceasta expresie se numeste informatia reciproca a lui A si B. Dar asteptati … luand -log2 din probele probabilistice pev (A, B) = P (A si B) / (P (A) · P (B) ) da exact aceeasi expresie! Asa ca il voi numi, de asemenea, dovezi informationale si scriu

iev (A, B): = -log2pev (A, B) = inf (A) + inf (B) – inf (A si B)

In timp ce suntem la el, permiteti doar sa luam -log2 din restul teoremei lui Bayes si sa vedem ce obtinem. Putem defini valoarea informationala conditionala prin let

inf (A | B): = -log2 P (A | B) = inf (A si B) – inf (B),

iar acum teorema lui Bayes atinge urmatoarea forma:

inf (A | B) = inf (A) – iev (A, B) ← informatia teoretica a lui Bayes

In actualizarea bayesiana, A nu s-a intamplat inca, asa ca, aici, vom folosi interpretarea noastra „incertitudine” a valorii informatiei. Dupa cum puteti vedea din ecuatie, daca iev (A, B) este pozitiv, incertitudinea lui A scade la observarea lui B, ceea ce inseamna ca A devine mai probabila . Daca este negativ, incertitudinea A creste , deci A devine mai putin probabila. Acesta variaza de la -infinit la + infinit, dupa cum A si B se contrazic complet sau se confirma complet. In concluzie:

Actualizarea bayesiana = scaderea probelor reciproce din incertitudine .

Acesta este celalalt mod preferat de a ma gandi la actualizare. Faptul ca dovezile pot fi gandite si ca un fel de redundanta sau informatii reciproce ofera o interpretare concreta pentru simetria actualizarii credintei. De asemenea, avand in vedere ca „N biti de informatii” sunt atat de usor de conceptualizat ca o cantitate precisa, aceasta da un sens intutiv cantitativ „cat de mult A si B se sustin”. De fapt, a observa acest lucru m-a interesat in primul rand de teoria informatiei si sper sa fi starnit si interesul tau!

Ceea ce m-a pastrat interesat este simplul fapt ca dovezile informationale se comporta atat de frumos:

(Simetrie) iev (A, B) = iev (B, A)

Mai multe exemple si discutii pentru a va stimula familiaritatea cu valoarea informatiilor sunt furnizate in sectiunea 3, dar, deocamdata, permiteti o comparatie cu alte doua metode pentru a descrie actualizarea bayesiana.

Cote si cote de jurnal: o comparatie scurta.

(Cred ca acestea merita o mentiune speciala, pentru ca au fost deja discutate pe LessWrong.com.)

Teorema lui Bayes poate fi, de asemenea, exprimata destul de bine folosind cote cu raporturi de probabilitate si cota log cu raporturi de probabilitate-log. Un neajuns cu utilizarea sanselor la actualizare este ca raportul de probabilitate K (B | A) = P (B | A) / P (B | AA), numit uneori factorul Bayes, nu este simetric, deci nu face simetria actualizarii este evidenta. De asemenea, raporturile probabilitatea jurnalului nu sunt nici simetrice.

Dar cota si cotele de jurnal au avantajele lor. De exemplu, daca B1 si B2 sunt independenti din punct de vedere conditional A si dati conditionat independenti ¬A, atunci K (B1 si B2, A) = K (B1 | A) · K (B2 | A), si in mod similar pentru orice numar de B . Aceste conditii sunt indeplinite in mod natural atunci cand B1 si B2 sunt consecinte cauzale ale A care nu se influenteaza cauzal reciproc. In schimb, in sistemele cauzale, nu este de obicei cazul pev (A, B1 si B2) = pev (A, B1) · pev (A, B2). (Citind „Cauzalitatea: modelele, rationamentul si infernul” lui Pearl, mi-au lamurit asta o data pentru tot, precizand care este un „sistem cauzal”.)

Discutii suplimentare de informatii

In entuziasmul nostru de a ajunge la o teorema a lui Bayes teoretic informational, am prezentat o multime de oportunitati de a ne opri si de a reflecta, asa ca permiteti sa facem ceva mai mult aici.

Informatii vs. „date” sau „cunostinte”

CE Shannon a folosit initial sintagma completa „valoarea informatiei”, dar in zilele noastre este adesea scurtata la „informatie”. Dupa cum am mentionat, informatiile nu sunt un sinonim pentru „date” sau „cunostinte” atunci cand sunt utilizate in acest mod.

Poate fi de ajutor sa se analizeze acest lucru cu modul in care „masa” nu este „importanta”. Daca asez 2 grame de materie in partea stanga a unei scari de echilibru si 3 grame in dreapta, aceasta se va indrepta spre dreapta, deoarece 3g-2g = 1g> 0g. Unde este acest 1 gram de materie? Care „1 gram de materie” este materia care sfatuieste cantarul? Intrebarea nu are sens, deoarece 1g nu se refera la nicio problema in special, la o diferenta in cantitati totale. Dar va puteti intreba „cata masa are aceasta problema?” Si, de asemenea, „cata informatie are aceste date?”.

De ce „ informatiile redundante“ nu are nici un sens

Cand iev (A, B) este pozitiv, am vorbit despre informatiile reciproce ale lui A si B despre „redundanta”. Dar care este aceasta informatie redundanta? Ce spune? Din nou, aceasta este eroarea de „valoare a informatiilor este a datelor”, facand intrebari prost formulate. Este oarecum ca si cum ai intreba ce gram de materie trebuie eliminat de pe scalele de mai sus pentru a-l echilibra. Pentru a ilustra mai precis, sa presupunem din nou ca A spune „X = 111?” iar B spune „X = ?? 11”. Daca R este evenimentul „X = ?? 1?“, Este tentant sa apel R „ informarea reciproca“ a A si B. Intr – adevar, daca observam mai intai R, atunci A si B sa devina independenta, astfel incat nu exista nici mai mult redundanta. Dar acest R nu este unic.Orice lista cu 8 rezultate care includ rezultatele A si rezultatele B ar functiona astfel. De exemplu, am putea lua R pentru a spune „X este unul dintre 0011, 0111, 1011, 1110, 1111, 1000, 0100, 0001”.

Pana la infinit si .

.. bine, doar la infinit.

Am vazut ca valoarea informatiilor inf (A) variaza de la 0 la + infinit si poate fi interpretata fie ca informativitate, fie incertitudine, in functie de faptul daca evenimentul s-a intamplat sau nu. Sa ne gandim putin la extremele acestei scari:

Aceasta valoare a informatiei 0 corespunde unui eveniment 100% probabil: inseamna:

1) 0 informativitate: nu obtii nicio informatie din observarea unui eveniment despre care stiai deja ca este cert (ignorand 0% – probabil discrepante) si

2) 0 incertitudine: nu aveti nevoie de informatii pentru a verifica un eveniment care este sigur sa se produca si

Valoarea informatiei + infinit corespunde unui eveniment de 0% probabil: inseamna:

1) nesiguranta infinita: nici o cantitate fina de informatii nu te poate convinge de un eveniment probabil de 0% (desi poate o serie infinita de teste te poate apropia arbitrar) si

2) informativitate infinita: daca observi un eveniment de 0% probabil, s-ar putea sa castigi un premiu Nobel (inseamna ca cineva a fost incurcat de o credinta anterioara de 0% undeva cand nu ar fi trebuit).

Pentru valorile intre, mai probabil = mai putin incert = mai putin informativ si mai putin probabil = mai incert = mai informativ.

Ce alte chestii misto se pot intampla?

Pentru a ne bucura mai bine de modul in care functioneaza valorile informatiilor, revenim la sirul nostru X de 4 biti aleatoriu, generat de intoarcerea a patru monede:

• Codificare. Fie C evenimentul “X contine exact unul 1”, adica X = 1000, 0100, 0010 sau 0001. Acest lucru se intampla cu probabilitatea 4/16 = 1/4 = 2-2, deci inf (C) = 2 biti. Daca C este adevarat, furnizeaza 2 biti de informatii despre X si folosind 2 biti suplimentari am putea codifica pozitia „1” scriind „primul” = 00, „al doilea” = 01, „al treilea” = 10, si „al patrulea” = 11. Astfel, sfarsim folosind 4 biti in total pentru a specifica sau „codifica” X, asa cum ne asteptam. In general, exista teoreme care caracterizeaza informatii in totalitate in ceea ce priveste codificarea / decodarea, ceea ce face parte din ceea ce o face atat de utila in aplicatii.

• dovezi negative. Fie D evenimentul „X incepe cu 1”, pe care il vedeti direct ca specificand inf (D) = 1 bit de informatie. Este usor de observat ca P (D) = 1/2 si P (D | C) = 1/4, deci stim ca C face ca D sa fie mai putin probabil (si invers, prin actualizarea simetriei!), Dar permite practicarea gandirii in termeni de informare. Impreuna, „C si D” inseamna doar X = 1000, deci inf (C si D) = 4 biti: determina complet X. Pe de alta parte, am vazut ca inf (C) = 2 biti, iar inf (D) = 1 bit, deci iev (C, D) = 2 + 1-4 = -1, confirmand ca oricare dintre ele ar prezenta dovezi negative pentru celalalt.

• Valorile informatiilor non-integrale Fiind definite ca un logaritm, in informatiile din viata reala valorile de obicei nu sunt intregi, la fel cum probabilitatile nu sunt de obicei fractii simple. Aceasta nu este de fapt o problema, ci reflecta o flexibilitatea definitiei. De exemplu, luati in considerare evenimentul ¬B: „X nu incepe cu 11”, care are probabilitatea 3/4, de aceea inf (¬B) = – log2 (3/4) = 0.415. Daca am sti, de asemenea, „X nu se termina cu 11”, asta ne-ar oferi inca 0,415 biti de informatii (deoarece este independent!). Toate formulele noastre functioneaza bine cu valorile informatiilor non-integrale, astfel incat le putem adauga pentru a concluziona ca avem 0,830 biti. Aceasta fiind mai mica de 1 inseamna ca inca nu am restrictionat posibilitatile de numar atat cat sa cunoastem un singur bit pentru anumiti (adica 50%). Intr-adevar, 9 din cele 16 posibilitati nu incep si nici nu se termina cu 11.

Bine, dar este altceva decat un truc minunat cu logaritmi?

Da! Aceasta definitie a informatiei are o multime de aplicatii din lumea reala care o legitimeaza ca o cantitate stiintifica de interes :

* Comunicare (latime de banda = informatii pe secunda),

* Compresia datelor (informatii = cat de „incompresibila” este iesirea unei surse de date),

* Mecanica statistica si fizica (entropie = incertitudine medie = informativitate preconizata a observarii unui sistem),

si desigur, inteligenta artificiala.

Unde pot citi mai multe?

Eliezer a scris o serie de postari care implica teoria informatiilor despre tratarea mai multor variabile aleatorii simultan. Deci, daca doriti sa aflati mai multe despre ea, Wikipedia este in prezent o sursa decenta. Filozofia generala este de a lua valorile asteptate ale cantitatilor definite aici pentru a obtine analogi pentru variabilele aleatorii, deci sunteti deja la jumatatea drumului.

Pentru ceva mai coerent si aprofundat, o teorie matematica a comunicarii, Shannon (1948), care este creditata cu teoria informatiei moderne de pionierat, ramane impresionant o introducere fantastica a subiectului. Calea de parcurs, Shannon!

Sunt multe alte lucruri bune de invatat doar in acea hartie, dar voi incheia aceasta postare aici. Ceea ce cred ca este cel mai relevant pentru cititorii LessWrong este constientizarea unei definitii precise a informatiilor si ca aceasta va poate ajuta sa va ganditi la credinte si Bayesianism.

Teoria informatiei si simetria actualizarilor credintelor – LessWrong 2.0

Frumoasa simetrie a actualizarii bayesiene

Cote si cote de jurnal: o comparatie scurta.

Discutii suplimentare de informatii

Populare

Afla cum iti poti lansa o mica afacere folosind un spatiu...

Top 10 cele mai supraevaluate filme din toate timpurile

10 regizori care au facut un film de groaza si au...

10 documentare care au schimbat perceptia publicului

Top 10 interviuri controversate cu celebritati din toate timpurile

Top 10 cele mai memorabile momente ale premiilor Oscar

Cum se schimba viata atunci cand intri in cercurile sociale ale...

10 povesti ciudate din lumea rap pe care sa le cunosti

10 secrete intunecate din lumea surprinzator de rasucita a K-Pop

10 melodii rock inspirate de evenimente groaznice