Aceasta postare face parte dintr-o serie care introduce Algorithm Explorer: un cadru pentru explorarea metodelor de stiinta a datelor care se refera la nevoile afacerii dvs.
Postul introductiv „Invatarea automata: de unde sa incepem …” poate fi gasit aici si Algorithm Explorer aici
Daca doriti sa utilizati invatarea automata pentru a rezolva o problema de afaceri care necesita prezicerea unei valori numerice, ar trebui sa va uitati la Tehnici de regresie.
Array
Algoritmii de regresie sunt tehnici de invatare automata pentru prezicerea valorilor numerice continue. Sunt sarcini de invatare supravegheate, ceea ce inseamna ca necesita exemple de instruire etichetate.
Cazuri de utilizare
- Prezicerea pretului adecvat pentru un produs pe baza marimii, marcii si locatiei
- Prezicerea numarului de vanzari in fiecare zi in functie de locatia magazinului, de sarbatorile legale, de ziua saptamanii si de cel mai apropiat concurent
Cele mai frecvente algoritmi de regresie
Mai jos sunt prezentari despre cei mai comuni algoritmi pentru prezicerea unei valori numerice: regresia liniara , arborii de decizie , retelele neuronale si vecinii mai apropiati de K
Regresia liniara incearca sa potriveasca un hiperplan drept la setul de date care este cel mai aproape de toate punctele de date. Este cel mai potrivit atunci cand exista relatii liniare intre variabilele din setul de date.
Array
Pro
- Rapid de calculat si poate fi actualizat cu usurinta cu date noi
- Relativ usor de inteles si de explicat
Tehnicile de regularizare pot fi utilizate pentru a preveni supraadaptarea
Contra
- Nu pot invata relatii complexe
- Greu de captat relatii neliniare (fara a transforma mai intai date care pot fi complicate)
Vocabular
hiperplan – Un hiperplan intr-un spatiu 1-dimensional (1D) este un punct. Intr-un spatiu bidimensional (2D), este o linie. Un hiperplan in spatiul tridimensional (3D) este un plan, o suprafata plana. Pentru a generaliza pentru orice dimensiune, conceptul este denumit hiperplan.
Array
relatii liniare – O relatie este liniara daca o modificare a primei variabile corespunde unei modificari constante a celei de-a doua variabile.
Overfitting – Un model de overfit va avea o precizie foarte mare asupra datelor de antrenament, dupa ce a descoperit caracteristici utile care sunt specifice in datele pe care le-a vazut. Cu toate acestea, va avea o precizie scazuta asupra datelor de test, deoarece nu poate generaliza.
relatii neliniare – O relatie neliniara inseamna ca o schimbare in prima variabila nu corespunde neaparat cu o schimbare constanta in a doua.
- porno tunisie daemon.indapass.hu
- blanche neige porno maps.google.com.co
- film porno ado www.ebay-kleinanzeigen.de
- porno tunisien animal.doctorsfile.jp
- porno minecraft ducar.carsensor.net
- overwatch porno www.google.com.eg
- porno pipes maps.google.com.np
- porno seniors www.google.lu
- porno dinge images.google.tn
- porno film complet www.google.mu
- porno gay dad images.google.co.ke
- dorcel porno images.google.com.do
- porno mia kalifa www.google.ba
- dvd porno en streaming www.google.is
- porno vieux gay images.google.com.lb
- porno francais mere et fils images.google.com.gt
- porno sado maso maps.google.hn
- beeg porno www.google.com.mt
- marocaine porno www.google.com.gh
- miss france porno images.google.com.pa
- roman photo porno maps.google.ci
- film porno trio www.google.com.kw
Cu toate acestea, se pot influenta reciproc, dar pare a fi predictibil.
Exemplu Notebook Python
Prezicerea rezistentei iahturilor cu regresie liniara
Arborii de decizie invata cum sa imparta cel mai bine setul de date in ramuri separate, permitandu-i sa invete relatii neliniare .
Padurile aleatorii (RF) si copacii cu gradient (GBT) sunt doi algoritmi care construiesc multi copaci individuali, punand in comun predictiile lor. Pe masura ce utilizeaza o colectie de rezultate pentru a lua o decizie finala, acestea sunt denumite „tehnici de ansamblu”.
Pro
- Un singur arbore de decizie este rapid de antrenat
- Robust la zgomot si valori lipsa
- RF functioneaza foarte bine „out-of-the-box”
Contra
- Arborii de decizie unici sunt predispusi la supra-dotare (care este locul unde intra ansamblurile!)
- Arborii complexi sunt greu de interpretat
Vocabular
relatii neliniare – O relatie neliniara inseamna ca o schimbare in prima variabila nu corespunde neaparat cu o schimbare constanta in a doua. Cu toate acestea, se pot influenta reciproc, dar pare a fi predictibil.
Punerea in comun – Aceasta este o modalitate de a combina datele si se face de obicei luand media medie.
Zgomot – Zgomotul se refera la faptul ca punctele de date sunt incorecte, ceea ce poate duce la descoperirea unor modele care sunt neadevarate. Acestea sunt de obicei identificate daca sunt valori anormale, ceea ce inseamna ca sunt mult diferite de restul setului de date. Cu toate acestea, fiti prudenti, deoarece unele valori aberante pot fi date valabile si merita investigate.
Overfitting – Un model de overfit va avea o precizie foarte mare asupra datelor de antrenament, dupa ce a descoperit caracteristici utile care sunt specifice in datele pe care le-a vazut. Cu toate acestea, va avea o precizie scazuta asupra datelor de test, deoarece nu poate generaliza.
Exemplu Notebook Python
Prezicerea rezistentei iahturilor cu arbori de decizie si padure aleatorie
Retelele neuronale pot invata modele complexe folosind straturi de neuroni care transforma matematic datele. Straturile dintre intrare si iesire sunt denumite „ straturi ascunse ”. O retea neuronala poate invata relatii intre caracteristicile pe care alti algoritmi nu le pot descoperi cu usurinta.
Pro
- Extrem de puternic / de ultima generatie pentru multe domenii (de exemplu, viziune computerizata, recunoastere a vorbirii)
- Poate invata chiar si relatii foarte complexe
- Straturile ascunse reduc nevoia de inginerie a caracteristicilor (necesitatea mai mica de a intelege datele subiacente)
Contra
- Solicitati o cantitate foarte mare de date!
- Predispus la supra-dotare
- Timp lung de antrenament
- Necesita o putere de calcul semnificativa pentru seturi de date mari (costuri de calcul)
- Modelul este o „cutie neagra”, inexplicabila
Vocabular
Neuroni – Un neuron artificial este o functie matematica. Este nevoie de una sau mai multe intrari care sunt inmultite cu valori numite „greutati” si adaugate impreuna. Aceasta valoare este apoi transmisa unei functii neliniare, denumita „functie de activare”, care devine iesirea.
Intrare – Functiile sunt transmise ca intrari, de ex. Dimensiune, marca, locatie etc.
Iesire – Aceasta este variabila tinta, lucru pe care incercam sa-l prezicem, de ex. Pretul unui articol.
Straturi ascunse – Acestea sunt o serie de neuroni care transforma matematic datele. Acestea sunt denumite „ascunse”, deoarece utilizatorul este preocupat doar de straturile de intrare, unde sunt transmise caracteristicile si straturile de iesire, unde se face predictia.
Ingineria caracteristicilor – Ingineria caracteristicilor este procesul de transformare a datelor brute in ceva mai semnificativ, aceasta implicand de obicei lucrul cu cineva care are expertiza in domeniu.
Overfitting – Un model de overfit va avea o precizie foarte mare asupra datelor de antrenament, dupa ce a descoperit caracteristici utile care sunt specifice in datele pe care le-a vazut. Cu toate acestea, va avea o precizie scazuta asupra datelor de test, deoarece nu poate generaliza.
Model – Algoritmii de invatare automata creeaza un model dupa antrenament, aceasta este o functie matematica care poate fi apoi utilizata pentru a face o noua observatie si pentru a calcula o predictie adecvata.
Exemplu Notebook Python
Prezicerea rezistentei iahturilor cu retele neuronale
K-Near Neighbours (KNN) face o predictie pentru o noua observatie, cautand cele mai similare observatii de formare si punand in comun valorile acestora
Pro
- Simplu
- Puternic
- Niciun antrenament implicat
Contra
- Scump si lent pentru a prezice noi cazuri
- Functioneaza slab la seturile de date cu dimensiuni mari
Vocabular
Observatie – O observatie este un singur exemplu, un punct de date sau un rand din date.
Punerea in comun – Aceasta este o modalitate de a combina datele si se face de obicei luand media medie.
Dimensiune ridicata – date cu dimensiuni ridicate inseamna ca datele au un numar foarte mare de caracteristici. Daca datele dvs. sunt reprezentate intr-un fisier CSV, baza de date sau Excel, daca exista o multime de coloane pe care le veti folosi pentru a construi un model, este de dimensiuni ridicate
Exemplu Notebook Python
Prezicerea rezistentei iahturilor cu K vecinii cei mai apropiati
Aceasta serie continua cu:
- Invatarea automata: de unde sa incepem …
- Invatare automata: incercarea de a va clasifica datele
- Invatarea automata: incercarea de a descoperi structura in datele dvs.
- Invatarea automata: incercarea de a face recomandari
- Invatare automata: incercarea de a detecta valori aberante sau comportamente neobisnuite
As dori sa-i multumesc lui Sam Rose pentru marea sa activitate de dezvoltare front-end (si rabdare!), Transformand ideea mea bruta in ceva mult mai consumabil, rationalizat si estetic placut.
In mod similar, abilitatile mele de desen lasa mult de dorit, asa ca multumesc Mary Kim pentru ca a adaugat un flare artistic acestei lucrari!








