Fotografie de Carlos Muza pe Unsplash

Un model mixt (sau mai precis modelul eroare-component mixt ) este un model statistic care contine atat efecte fixe, cat si efecte aleatorii. Este o extensie a modelelor liniare simple. Aceste modele sunt utile intr-o mare varietate de discipline din stiintele fizice, biologice si sociale . Este de modelele de regresie , care este unul dintre instrument puternic pentru modelele de regresie liniara atunci cand datele contin tendintele globale si la nivel de grup.

Sunt deosebit de utile in setarile in care masuratorile repetate sunt efectuate pe aceleasi unitati statistice (studiu longitudinal) sau in care masuratorile sunt efectuate pe grupuri de unitati statistice conexe.

In domeniul datelor ecologice si biologice sunt adesea complexe si dezordonate si uneori bi-modale.

Array

Este posibil sa avem diferiti factori de grupare, cum ar fi populatiile, speciile, siturile, sexul etc. Marimile esantionului ar putea lasa ceva de dorit, mai ales daca incercam sa potrivim modele complicate cu multi parametri .

Acesta este motivul pentru care au fost dezvoltate modele mixte , pentru a face fata unor astfel de date dezordonate si pentru a ne permite sa folosim toate datele noastre, chiar si atunci cand avem dimensiuni reduse ale esantionului, date structurate si multe co-variabile pentru a se potrivi.

Urmeaza reprezentarea modelului mixt:

Y = Efect fix + Efect aleatoriu + Eroare

Sintaxa modelului mixt

Ce sunt efectele fixe?

Un model de efecte fixe este un model statistic in care parametrii modelului sunt marimi fixe sau non-aleatorii. Se presupune ca observatiile sunt independente.

Array

De exemplu: – Genul este o variabila cu efect fix; valorile masculin / feminin sunt independente una de alta (se exclud reciproc) si nu se modifica intr-o perioada de timp.

Ce sunt efectele aleatorii?

Un model cu efecte aleatorii este un model statistic in care parametrii modelului sunt variabile aleatorii. Se presupune ca exista un tip de relatie intre unele observatii.

De exemplu: – Costul unei masini noi variaza in functie de anul in care a fost achizitionata.

Avantajul modelului mixt

  1. Permite efecte aleatorii cu efecte fixe.

    Array

  2. Faceti o treaba mai buna in tratarea datelor lipsa.
  3. Permite efectuarea de masuratori in mod repetat in timp.
  4. Poate lucra pe alte tipuri de variabile dependente: – categoric, continuu, ordinal, numar discret etc.
  5. Functioneaza pentru modele de regresie a datelor corelate, inclusiv masuratori repetate, longitudinale, serii temporale, grupate si alte metode conexe.

Acest articol parcurge un exemplu folosind date de politete referitoare la introducerea acestui concept.

Voi folosi R ca o mica condoleanta pentru limba, desi un cadru robust in aceasta postare.

Puteti descarca datele manual …

http://www.bodowinter.com/tutorial/politeness_data.csv

Efectuarea modelului mixt in R

Exista doua pachete in R pentru a realiza modele mixte: –

  1. lme4
  2. nmle

Analiza datelor

Voi folosi pachetul lme4 in acest post pentru a efectua un model mixt. Sa incepem si sa incarcam datele. Aparent, lipsesc valori in date. Renunt la valorile lipsa. Dupa eliminarea valorilor lipsa, datele arata astfel.

Rezumatul datelor

Aveti functia lmer () disponibila; care este echivalentul modelului mixt al functiei lm (). Aceasta functie va construi modele mixte.

Diferenta de nivel de politete este reprezentata in coloana numita „atitudine”. In acea coloana, „pol” inseamna politicos si „inf” pentru informal. Sexul este reprezentat ca „F” si „M” in coloana „sex”. Masura dependenta este „frecventa”, care este tonul vocii masurat in Hz (Hz). Efectele aleatoare interesante pentru noi sunt in coloana „subiect” si „scenariu”.

Sa ne uitam la relatia dintre politete si pitch prin intermediul unui boxplot:

Boxplot

In ambele cazuri, linia mediana care este o linie neagra in centrul parcelei; este mai mic pentru cei politicosi decat pentru starea informala. Cu toate acestea, ar

putea exista un pic mai mult suprapunere intre cele doua categorii de politete pentru barbati decat pentru femei.

Sa incepem cu construirea primului nostru model mixt,

Deci, aici frecventa este variabila noastra dependenta, atitudinea este efectul nostru fix, subiectul si scenariul sunt efectele noastre aleatorii. Ce inseamna (1 | subiect)?

Acest lucru ne spune ca interceptarea aleatorie cu medie fixa.

Orice este in partea dreapta a | operator este un factor si denumit „factor de grupare” pentru termen. Efectele aleatorii (factorii) pot fi incrucisate sau imbricate – depinde de relatia dintre variabile.

Exista diferite stiluri diferite de scriere a efectului aleatoriu in ecuatie. Puteti adauga o interceptare aleatorie cu a priori inseamna, de asemenea, puteti adauga pante cu interceptare etc. Urmeaza sintaxa scrierii efectului aleatoriu in pachetul lmer ().

Acum, sa verificam rezumatul acestui model.

rezumatul modelului

In modelul mixt obtineti atat efect fix, cat si efect aleatoriu in rezumatul modelului, asa cum se arata mai sus. Sa aruncam o privire la abaterea standard care este obtinuta in rezumatul modelului nostru, asa cum se arata mai jos.

Aceasta este o masura a cat de multa variabilitate in masura dependenta exista datorita scenariilor si subiectilor (cele doua efecte aleatoare ale noastre). Puteti vedea ca scenariul are o variabilitate mult mai mica decat subiectul. Pe baza boxploturilor noastre de sus, unde am vazut mai multe diferente intre subiecti decat intre articole, acest lucru era de asteptat. Urmat de „Rezidual”, care reprezinta variabilitatea care nu se datoreaza nici scenariului, nici subiectului. Aceasta este „ε” a noastra, abaterile „aleatorii” de la valorile prezise care nu se datoreaza subiectilor si scenariului.

Sa verificam efectele fixe in rezumat al modelului. Aici „atitudinea” este panta pentru efectul categoric al politetii. Acum -19.695 inseamna ca tonul este mai scazut in vorbirea politicoasa decat in ​​vorbirea informala, cu aproximativ 20 Hz . De asemenea, exista o eroare standard asociata cu aceasta panta si o valoare t, care este pur si simplu estimarea (20 Hz) impartita la eroarea standard a efectului fix.

Ca intotdeauna, este o buna practica sa aruncam o privire asupra comploturilor pentru a verifica ipotezele noastre:

Grafic rezidual vs valorile ajustate

De asemenea, verificati QQPlot:

Daca doriti sa aruncati o privire la tabelul pentru lme4 (), va recomand sa aruncati o privire la pachetul stargazer (). Are o adnotare frumoasa si exista o multime de resurse.

Sa calculam valoarea RMSE a modelului nostru.

Concluzie

Modelele cu efecte mixte pot fi un pic dificile si adesea nu exista prea mult consens cu privire la cea mai buna modalitate de a aborda ceva in interiorul lor. Bitul de codare este de fapt partea (relativ) usoara aici.