Un ghid pentru recunoasterea si remedierea modelului dvs. de invatare automata

Nabil M Abbas

13 ianuarie 2020

·

4

min citit

Unul dintre cei mai alarmanti indicatori ai unui model de invatare automata cu performante slabe este testul de precizie al antrenamentului si al datelor de testare. Un test al datelor dvs. va indica daca modelul dvs. este overfit, underfit sau echilibrat. Motivul pentru care avem impartirea testelor de tren este astfel incat sa putem determina si ajusta performanta modelelor noastre.

Array

In caz contrar, ne-am antrena orbeste modelele pentru a prezice fara nici o perspectiva asupra performantei modelului.

„Modelul dvs. nu corespunde datelor de antrenament atunci cand modelul are performante slabe in ceea ce priveste datele de antrenament.”

Cauze

  • Incercarea de a crea un model liniar cu date neliniare.
  • Avand prea putine date pentru a construi un model precis
  • Modelul este prea simplu, are prea putine caracteristici

Cursantii care nu se potrivesc in mod obisnuit tind sa aiba varianta scazuta, dar partinire mare.

Array

Modelul pur si simplu nu cuprinde relatia datelor de antrenament, ducand la predictii inexacte ale datelor de antrenament.

Remedii

  • Adaugati mai multe functii in timpul selectarii functiei.
  • Functii suplimentare de inginer in domeniul problemei dvs. care au sens.

A avea mai multe functii limiteaza partinirea in cadrul modelului dvs.

Array

„Modelul dvs. se potriveste excesiv cu datele dvs. de antrenament atunci cand vedeti ca modelul functioneaza bine pe datele de antrenament, dar nu are rezultate bune pe datele de evaluare.”

Cauze

Cauza principala a modelei de a fi supradimensionat este ca algoritmul a captat „zgomotul” datelor. Suprapunerea apare atunci cand modelul se potriveste prea bine cu datele.

Un model de overfit prezinta partinire scazuta si varianta ridicata. Modelul este excesiv de complicat probabil datorita caracteristicilor redundante.

Remedii

Atunci cand un model este in exces, relatia dintre caracteristicile modelului si variabila tinta nu este capturata.

Un remediu pentru aceasta este validarea incrucisata de k-ori . Este o masura preventiva puternica impotriva supra-dotarii. Ideea din spatele validarii incrucisate este ca efectuati mai multe diviziuni de mini trenuri pentru a va regla modelul.

In validarea incrucisata k-fold standard, partitionam datele in k subseturi, numite folds. Apoi, antrenam in mod iterativ algoritmul pe pliuri k-1 in timp ce folosim pliul ramas ca set de testare (denumit „pliul holdout”).

Sursa: https://elitedatascience.com/overfitting-in-machine-learning

Un al doilea remediu este ca va puteti antrena cu mai multe date . Acest lucru nu va functiona in fiecare caz, dar in scenariile in care va uitati la un esantion de date inclinat, esantionarea datelor suplimentare va poate ajuta sa va normalizati datele. Un exemplu in acest sens este daca modelati inaltimea fata de varsta copiilor, prelevarea de probe din mai multe districte scolare va va ajuta modelul.

Un al treilea remediu este ca puteti elimina caracteristicile . Dar este important sa intelegem importanta caracteristicilor. Trebuie sa aveti in vedere problema pe care incercati sa o abordati si sa aveti cunostinte de domeniu. In cele din urma, functiile redundante nu vor ajuta si nu ar trebui incluse in modelul dvs. de invatare automata.

Remedii suplimentare

Regularizarea este o metoda care implica o varietate de tehnici pentru a va forta in mod artificial modelul sa fie mai simplu. Tehnica utilizata depinde de tipul de cursant pe care il utilizati. De exemplu, pentru o regresie liniara puteti adauga un parametru de penalizare la functia de cost. „De multe ori, metoda de regularizare este si un hiperparametru, ceea ce inseamna ca poate fi reglat prin validare incrucisata”. Pentru a afla mai multe despre regularizare in ceea ce priveste anumite algoritmi, aruncati o privire la link.

Ansamblurile sunt o metoda de invatare automata pentru a combina predictii din mai multe modele separate. Colective folosesc insacuire pentru a incerca sa reduca sansa de a overfit modele complexe, precum si stimularea pentru a imbunatati „flexibilitate predictive a modelelor simple.“

Sursa: http://scott.fortmann-roe.com/docs/BiasVariance.html

In cele din urma, oamenii de stiinta de date trebuie sa ia decizii cu privire la modul in care doresc sa prezica modelul lor. Ei trebuie sa-si inteleaga modelul si de ce prezice un anumit mod. Ideile de supra-dotare si sub-amenajare se incadreaza sub umbrela Variatiei Bias Trade Off. In cele din urma, eroarea poate proveni atat din partinire, cat si din varianta, astfel incat Data Scientist trebuie sa poata gasi un echilibru. Dar voi lasa Bias Variance Trade Off pentru o postare viitoare.

Multumesc pentru lectura!

https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html

Sub-dotarea si supra-dotarea in invatarea automata si cum sa le rezolvati !!!

Cauza performantei slabe a unui model in invatarea automata este fie supraadaptarea, fie subaprovizionarea datelor.

catredatascience.com

Suprapunerea in invatarea automata: ce este si cum sa o preveniti

Stiati ca exista o greseala … … pe care mii de incepatori ai stiintei datelor o comit fara sa stie? Si asta …

elitedatascience.com