Un ghid pentru recunoasterea si remedierea modelului dvs. de invatare automata
Nabil M Abbas
13 ianuarie 2020
·
4
min citit
Unul dintre cei mai alarmanti indicatori ai unui model de invatare automata cu performante slabe este testul de precizie al antrenamentului si al datelor de testare. Un test al datelor dvs. va indica daca modelul dvs. este overfit, underfit sau echilibrat. Motivul pentru care avem impartirea testelor de tren este astfel incat sa putem determina si ajusta performanta modelelor noastre.
Array
In caz contrar, ne-am antrena orbeste modelele pentru a prezice fara nici o perspectiva asupra performantei modelului.
„Modelul dvs. nu corespunde datelor de antrenament atunci cand modelul are performante slabe in ceea ce priveste datele de antrenament.”
Cauze
- Incercarea de a crea un model liniar cu date neliniare.
- Avand prea putine date pentru a construi un model precis
- Modelul este prea simplu, are prea putine caracteristici
Cursantii care nu se potrivesc in mod obisnuit tind sa aiba varianta scazuta, dar partinire mare.
Array
Modelul pur si simplu nu cuprinde relatia datelor de antrenament, ducand la predictii inexacte ale datelor de antrenament.
Remedii
- Adaugati mai multe functii in timpul selectarii functiei.
- Functii suplimentare de inginer in domeniul problemei dvs. care au sens.
A avea mai multe functii limiteaza partinirea in cadrul modelului dvs.
Array
„Modelul dvs. se potriveste excesiv cu datele dvs. de antrenament atunci cand vedeti ca modelul functioneaza bine pe datele de antrenament, dar nu are rezultate bune pe datele de evaluare.”
Cauze
Cauza principala a modelei de a fi supradimensionat este ca algoritmul a captat „zgomotul” datelor. Suprapunerea apare atunci cand modelul se potriveste prea bine cu datele.
- porno anal arabe blg.hungfat.com
- xxxl porno www.riddlelaw.com
- porno academie univar.info
- porno 365 www.kidsarecooking.com
- porno taboo ezyfile.net
- just porno organicprivatelabel.net
- porno zoophile www.onlineunitconversion.com
- bon porno gorhodes.com
- periscope porno web-site-guarantee.com
- porno gay france www.objectif-suede.com
- porno hud virink.com
- mariage porno gpls-survey.com
- porno teen www.hollywoodbitchslap.com
- porno xxl utahcertifiedusedcars.com
- absolu porno loomadevarjupaik.thecouponspot.com
- porno anna polina www.domkarin.com
- porno gay français clap.ritatodd.com
- téléréalité porno p2.d-it.ru
- porno intense www.mcclureandsons.com
- porno soldat winterstar.biz
- massage thai porno www.a1freesoundeffects.com
- porno cuir amine.rudolphtech.net
Un model de overfit prezinta partinire scazuta si varianta ridicata. Modelul este excesiv de complicat probabil datorita caracteristicilor redundante.
Remedii
Atunci cand un model este in exces, relatia dintre caracteristicile modelului si variabila tinta nu este capturata.
Un remediu pentru aceasta este validarea incrucisata de k-ori . Este o masura preventiva puternica impotriva supra-dotarii. Ideea din spatele validarii incrucisate este ca efectuati mai multe diviziuni de mini trenuri pentru a va regla modelul.
In validarea incrucisata k-fold standard, partitionam datele in k subseturi, numite folds. Apoi, antrenam in mod iterativ algoritmul pe pliuri k-1 in timp ce folosim pliul ramas ca set de testare (denumit „pliul holdout”).
Sursa: https://elitedatascience.com/overfitting-in-machine-learning
Un al doilea remediu este ca va puteti antrena cu mai multe date . Acest lucru nu va functiona in fiecare caz, dar in scenariile in care va uitati la un esantion de date inclinat, esantionarea datelor suplimentare va poate ajuta sa va normalizati datele. Un exemplu in acest sens este daca modelati inaltimea fata de varsta copiilor, prelevarea de probe din mai multe districte scolare va va ajuta modelul.
Un al treilea remediu este ca puteti elimina caracteristicile . Dar este important sa intelegem importanta caracteristicilor. Trebuie sa aveti in vedere problema pe care incercati sa o abordati si sa aveti cunostinte de domeniu. In cele din urma, functiile redundante nu vor ajuta si nu ar trebui incluse in modelul dvs. de invatare automata.
Remedii suplimentare
Regularizarea este o metoda care implica o varietate de tehnici pentru a va forta in mod artificial modelul sa fie mai simplu. Tehnica utilizata depinde de tipul de cursant pe care il utilizati. De exemplu, pentru o regresie liniara puteti adauga un parametru de penalizare la functia de cost. „De multe ori, metoda de regularizare este si un hiperparametru, ceea ce inseamna ca poate fi reglat prin validare incrucisata”. Pentru a afla mai multe despre regularizare in ceea ce priveste anumite algoritmi, aruncati o privire la link.
Ansamblurile sunt o metoda de invatare automata pentru a combina predictii din mai multe modele separate. Colective folosesc insacuire pentru a incerca sa reduca sansa de a overfit modele complexe, precum si stimularea pentru a imbunatati „flexibilitate predictive a modelelor simple.“
Sursa: http://scott.fortmann-roe.com/docs/BiasVariance.html
In cele din urma, oamenii de stiinta de date trebuie sa ia decizii cu privire la modul in care doresc sa prezica modelul lor. Ei trebuie sa-si inteleaga modelul si de ce prezice un anumit mod. Ideile de supra-dotare si sub-amenajare se incadreaza sub umbrela Variatiei Bias Trade Off. In cele din urma, eroarea poate proveni atat din partinire, cat si din varianta, astfel incat Data Scientist trebuie sa poata gasi un echilibru. Dar voi lasa Bias Variance Trade Off pentru o postare viitoare.
Multumesc pentru lectura!
https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html
Sub-dotarea si supra-dotarea in invatarea automata si cum sa le rezolvati !!!
Cauza performantei slabe a unui model in invatarea automata este fie supraadaptarea, fie subaprovizionarea datelor.
catredatascience.com
Suprapunerea in invatarea automata: ce este si cum sa o preveniti
Stiati ca exista o greseala … … pe care mii de incepatori ai stiintei datelor o comit fara sa stie? Si asta …
elitedatascience.com








