Asteptati asta din Ziua 1, nu-i asa? Pentru ca ne place neconventional, l-am salvat pentru ultima. Urmatoarele 2 zile acopera si Regresia .

Regresia liniara este cel mai vechi, simplu si larg utilizat algoritm de invatare automata supravegheat pentru analiza predictiva.

Nivel logic – Infi.

Fiecare cercetator de date incepe cu acesta. Deci, iata-l.

Calea catre visele tale este rareori liniara.

Array

Trebuie sa-ti faci un zigzag spre fericire.

Este o metoda de a prezice o variabila tinta prin potrivirea celei mai bune relatii liniare intre variabila dependenta si independenta.

Exemplu!

Care este cea mai buna potrivire?

Poate avea orice forma in functie de numarul de variabile independente (un punct pe axa, o linie in doua dimensiuni, un plan in trei dimensiuni sau un hiperplan in dimensiuni superioare).

Metoda celor mai mici patrate: cea mai buna potrivire se face asigurandu-va ca suma tuturor distantelor dintre forma si observatiile efective in fiecare punct este cat mai mica posibil. Potrivirea formei este „cea mai buna” in sensul ca nicio alta pozitie nu ar produce mai putine erori, avand in vedere alegerea formei.

Daca vrei sa intri in matematica, poti arunca o privire mai jos sau daca urasti matematica, doar sari!

Metoda celor mai mici patrate pentru regresia liniara simpla.

Array

Nota: am aratat aceasta metoda numai pentru regresia liniara simpla. O puteti extinde pentru regresie liniara multipla. Nu stiti ce sunt regresiile liniare simple si multiple? Nicio problema, continua sa citesti.

Alegeti doua lucruri pe care le folositi in viata de zi cu zi si care sunt legate.

De asemenea, am date despre cheltuielile mele lunare, veniturile lunare si numarul de calatorii pe luna din ultimii trei ani. Acum trebuie sa raspund la urmatoarele intrebari:

  • Care vor fi cheltuielile mele lunare pentru anul viitor ?
  • Ce factor (venitul lunar sau numarul de calatorii pe luna) este mai important pentru a decide cheltuielile mele lunare?
  • Cum sunt corelate veniturile lunare si calatoriile pe luna cu cheltuielile lunare?

Da ai dreptate. Regresia liniara va fi salvata.

Array

Da, o complicam pentru tine. Fii deschis la lucruri noi . : D

1. Regresie liniara simpla

Aceasta metoda utilizeaza o singura variabila independenta pentru a prezice o variabila dependenta prin potrivirea unei cele mai bune relatii liniare.

2. Regresie liniara multipla

Aceasta metoda utilizeaza mai multe variabile independente pentru a prezice o variabila dependenta prin potrivirea unei cele mai bune relatii liniare.

In cazul regresiei multiple, parametrii pot fi gasiti in acelasi mod ca si in cazul regresiei liniare simple, prin minimizarea functiei de cost folosind:

  • Coborarea gradientului: data fiind o functie definita de un set de parametri, coborarea gradientului incepe cu un set initial de valori ale parametrilor si se deplaseaza iterativ catre un set de valori care minimizeaza functia. Aceasta minimizare iterativa se face folosind calculul, facand pasi in directia negativa a gradientului functiei .

Functia de cost.

Coborare in gradient.

Nota: functioneaza cel mai bine atunci cand multicolinearitatea este absenta. Este un fenomen in care doua sau mai multe variabile predictive sunt puternic corelate.

Regresie multipla pentru dvs.

3. Spline liniare

Uneori, spline liniare sunt utilizate pentru a reduce problema la regresie liniara. In aceasta metoda, potrivim datele cu o functie liniara in bucati . Sa presupunem ca nodurile sunt la k1 si k2 in graficul de imprastiere asa cum se arata in figurile de mai jos. S-ar putea sa va ganditi ca putem imparti datele in trei grupuri folosind k1 si k2 si rezolvam trei probleme de regresie (linii albastre in figura din stanga). Dar, dupa cum puteti vedea, nu asigura continuitatea !

Exemplu pentru spline liniare.

Pentru a face curba continua, putem folosi faptul ca orice spline liniara poate fi o combinatie liniara de functii de baza. Astfel, obiectivul splinelor liniare este de a se potrivi liniilor rosii din date (asa cum se arata in figura din stanga). Deci, putem construi o functie liniara in functie de piesa pas cu pas.

  • Mai intai incepem cu o functie liniara pentru punctele dinaintea lui k1 (linia verde in figura dreapta).

  • Apoi, adaugam a doua functie pentru punctele dintre k1 si k2 (linia albastra din figura din dreapta).

  • In cele din urma, vom adauga o a treia functie (linia mov in figura dreapta) pentru punctele de dupa k2.

4. Regresie in trepte

Acest model de regresie este utilizat atunci cand avem mai multe variabile independente. Foloseste procedura automata pentru a selecta variabile independente importante si nu exista nicio interventie umana.

Regresie pas cu pas inainte

  • Aici, incepem cu modelul nul, ceea ce inseamna ca nu are predictori, ci doar o interceptare (media peste variabila dependenta).
  • Acum, potriviti p (numarul total de variabile) modele de regresie liniara simple, fiecare cu una dintre variabile. Astfel, tocmai am cautat prin toate modelele variabile unice, cel mai bun si l-am remediat in model.
  • In mod similar, cautati printre variabilele p-1 ramase unul cate unul, dar de data aceasta cu acea variabila din model care a fost selectata in pasul anterior. Acum alegeti modelul care va fi cel mai bun dintre modelele p-1.
  • Continuati pana cand unele reguli de oprire sunt indeplinite, cum ar fi o anumita valoare prag a numarului de variabile care urmeaza sa fie selectate.

Regresie in trepte inapoi

  • Incepe cu modelul cu cel mai mic patrat care contine toti predictorii p .
  • Acum eliminati variabila cu cea mai mare valoare p, adica predictorul cel mai putin semnificativ.
  • Noul model va avea variabile (p-1). Eliminati din nou variabila cu cea mai mare valoare p.
  • Continuati pana cand unele reguli de oprire sunt satisfacute, ca toate variabilele au o valoare p mai mica decat o valoare prag .

Deci, puteti vedea, Regresia liniara in trepte aplica regresia liniara multipla de mai multe ori si selecteaza variabilele importante sau elimina de fiecare data cei mai putin predictori semnificativi.

Nota 1: Pentru ca regresia liniara in trepte inapoi sau regresia liniara multipla sa functioneze bine, numarul de observatii (n) ar trebui sa fie mai mare decat numarul de variabile (p) . Acest lucru se datoreaza faptului ca putem face regresia celor mai mici patrate numai atunci cand n este mai mare decat p. Pentru p mai mare decat n, modelul celor mai mici patrate nu este nici macar definit.

Nota 2: Procedurile automate pot sa nu aleaga variabilele semnificative potrivite din punct de vedere practic, deoarece nu au cunostintele speciale pe care le poate avea analistul.

Modelul de regresie in trepte.

Statisticile sunt foarte importante. Repet, FOARTE.

Nu exista un raspuns perfect la aceasta intrebare, deoarece alegerea modelului de regresie liniar potrivit cu date mici esantionate este o sarcina dificila. Ei bine, aici, va voi spune cateva metode statistice obisnuite pentru a va face o idee despre modelul care se potriveste cel mai bine cu datele dvs.:

  1. Ajustat Rpatrat si prezisa Valoare-R patrat : – Alegeti modelul cu mai mare valorile Rpatrat ajustate si a prezis. Spre deosebire de valorile patrate R ajustate si prezise, ​​care pot creste sau scadea la adaugarea unui predictor in functie de performanta modelului, valoarea patrata R obisnuita creste de fiecare data cand adaugam un predictor si poate duce la un model prea complex.
  2. Valori P pentru predictori : – Variabilele cu valori p scazute sunt cele mai semnificative variabile.
  3. Cp al lui Mallows : – Compara precizia si partinirea modelului complet cu modelele cu un subset de predictori. Cu cat este mai mic , cu atat sunt mai precise estimarile adevaratilor coeficienti de regresie ai modelului.

Nota: In afara de metodele statistice de mai sus, as sugera ca validarea incrucisata este cel mai bun mod de a evalua modelele.

Implementare in Python

Deci, este important sa vedem cum sa folosim ceea ce am castigat. Am aplicat Regresia liniara pe un set de date auto-creat in care inregistrasem veniturile lunare , calatoriile lunare si cheltuielile lunare in ultimii 3 ani.

Faceti clic AICI pentru codul complet si vedeti cat de usoara este lumea invatarii automate atunci cand vine vorba de regresie liniara.

Referinte

  1. Blog de Atomic Object
  2. Blog Minitab
  3. Regresie in trepte de Gerard Nico

Note de subsol

Da, aceasta a fost una lunga. Dar, si cel mai important! Suntem aproape in picioare la sfarsitul seriei 12A12D. Speram ca invatati.

Multumesc pentru lectura. 🙂

Si, ❤ daca a fost o lectura buna. Bucurati-va!

Editor: Akhil Gupta