Amazon SageMaker ofera o suita de algoritmi incorporati pentru a ajuta oamenii de stiinta a datelor si practicienii in invatarea automata sa inceapa sa se antreneze si sa implementeze rapid modele de invatare automata. Pentru cineva care este nou pentru SageMaker, alegerea algoritmului potrivit pentru cazul dvs. de utilizare poate fi o sarcina dificila. Urmatorul tabel ofera o foaie de trisare rapida care arata cum puteti incepe cu un exemplu de problema sau un caz de utilizare si sa gasiti un algoritm incorporat adecvat oferit de SageMaker care este valabil pentru acel tip de problema. Indrumari suplimentare organizate de paradigme de invatare (supravegheate si nesupravegheate) si domenii importante de date (text si imagini) sunt furnizate in sectiunile care urmeaza tabelului.

Exemple de probleme si cazuri de utilizare Paradigma sau domeniu de invatare Tipuri de probleme Format de introducere date Algoritmi incorporati

Preziceti daca un element apartine unei categorii: un filtru de e-mail spam

Invatare supravegheata

Clasificare binara / multi-clasa

Tabular

Algoritmul masinilor de factorizare, algoritmul K-Near Neighbours (k-NN), algoritmul de invatare liniara, algoritmul XGBoost

Preziceti o valoare numerica / continua: estimati valoarea unei case

Regresie

Tabular

Algoritmul masinilor de factorizare, algoritmul K-Near Neighbours (k-NN), algoritmul de invatare liniara, algoritmul XGBoost

Pe baza datelor istorice pentru un comportament, preziceti comportamentul viitor: preziceti vanzarile unui nou produs pe baza datelor de vanzari anterioare.

Prognoza seriilor temporale

Tabular

Algoritmul de prognoza DeepAR

Scoateti acele coloane dintr-un set de date care au o relatie slaba cu variabila eticheta / tinta: culoarea unei masini atunci cand preziceti kilometrajul acesteia.

Invatare fara supraveghere

Ingineria caracteristicilor: reducerea dimensionalitatii

Tabular

Algoritmul de analiza a componentelor principale (PCA)

Detectati comportamentul anormal in aplicatie: detectati cand un senzor IoT trimite citiri anormale

Detectarea anomaliilor

Tabular

Algoritmul Random Cut Forest (RCF)

Protejati-va aplicatia de utilizatorii suspecti: detectati daca o adresa IP care acceseaza un serviciu poate proveni de la un actor rau

Detectarea anomaliilor IP

Tabular

IP Insights

Imbunatatiti incorporarile de date ale obiectelor de inalta dimensiune: identificati bilete de asistenta duplicate sau gasiti rutare corecta pe baza asemanarii textului din bilete

Incorporari: convertiti obiecte de inalta dimensiune in spatiu de dimensiuni reduse.

Tabular

Algoritmul Object2Vec

Grupati obiecte / date similare impreuna: gasiti clienti cu cheltuieli mari, medii si mici din istoricul tranzactiilor

Clustering sau grupare

Tabular

Algoritmul K-Means

Organizati un set de documente in subiecte (necunoscute in prealabil): etichetati un document ca apartinand unei categorii medicale pe baza termenilor folositi in document.

Modelarea subiectelor

Text

Algoritmul de alocare a dirichletelor latente (LDA), algoritmul modelului subiectului neuronal (NTM)

Alocati categorii predefinite documentelor dintr-un corpus: clasificati cartile dintr-o biblioteca in discipline academice

Analiza textuala

Clasificarea textului

Text

Algoritm BlazingText

Conversia textului dintr-o limba in alta: spaniola in engleza

Traducere automata

algoritm Text

Algoritm secventa-secventa

Rezumati un corpus de text lung: un rezumat pentru o lucrare de cercetare

Rezumarea textului

Text

Algoritm secventa-secventa

Convertiti fisiere audio in text: transcrieti conversatiile din centrul de apel pentru o analiza ulterioara

Vorbire catre text

Text

Algoritm secventa-secventa

Etichetati / etichetati o imagine pe baza continutului imaginii: alerte despre continutul pentru adulti dintr-o imagine

Procesarea imaginii

Clasificarea imaginilor si etichetelor multiple

Imagine

Algoritmul de clasificare a imaginilor

Detectati persoane si obiecte intr-o imagine: politia examineaza o galerie foto mare pentru o persoana disparuta

Detectarea si clasificarea obiectelor

Imagine

Algoritmul de detectare a obiectelor

Etichetati fiecare pixel al unei imagini in mod individual cu o categorie: masinile cu conducere automata se pregatesc sa identifice obiectele in calea lor

Viziunea computerizata

Imagine

Algoritmul de segmentare semantica

Pentru informatii importante despre caile de registry Docker, formatele de date, tipurile de instante Amazon EC2 reluate si jurnalele CloudWatch comune tuturor algoritmilor incorporati furnizati de SageMaker, consultati Informatii comune despre algoritmi incorporati.

Urmatoarele sectiuni ofera indrumari suplimentare pentru algoritmii incorporati Amazon SageMaker grupati dupa paradigmele de invatare supravegheate si nesupravegheate de care apartin. Pentru descrieri ale acestor paradigme de invatare si ale tipurilor lor de probleme asociate, consultati Alegeti un algoritm. Sectiuni sunt, de asemenea, furnizate pentru algoritmii incorporati de SageMaker disponibili pentru a aborda doua domenii importante de invatare automata: analiza textuala si procesarea imaginilor.

Invatare supravegheata

Amazon SageMaker ofera mai multi algoritmi de uz general incorporati, care pot fi folositi fie pentru probleme de clasificare, fie pentru probleme de regresie.

Amazon SageMaker ofera, de asemenea, mai multi algoritmi de invatare supravegheati incorporati, care sunt utilizati pentru sarcini mai specializate in timpul ingineriei de caracteristici si a prognozei din datele seriilor de timp.

  • Algoritmul Object2Vec – un nou algoritm multifunctional extrem de personalizabil utilizat pentru ingineria caracteristicilor. Poate invata incastrari dense cu dimensiuni reduse ale obiectelor cu dimensiuni ridicate pentru a produce caracteristici care imbunatatesc eficienta antrenarii pentru modelele din aval. In timp ce acesta este un algoritm supravegheat, deoarece necesita date etichetate pentru instruire, exista multe scenarii in care etichetele relatiei pot fi obtinute doar din grupari naturale din date, fara nicio adnotare umana explicita.

  • DeepAR Forecasting Algorithm – un algoritm de invatare supravegheat pentru prognozarea seriilor de timp scalare (unidimensionale) folosind retele neuronale recurente (RNN).

Invatare fara supraveghere

Amazon SageMaker ofera mai multi algoritmi incorporati care pot fi utilizati pentru o varietate de sarcini de invatare nesupravegheate, cum ar fi clusterizarea, reducerea dimensiunilor, recunoasterea modelelor si detectarea anomaliilor.

  • Algoritmul de analiza a componentelor principale (PCA) – reduce dimensionalitatea (numarul de caracteristici) dintr-un set de date prin proiectarea punctelor de date pe primele cateva componente principale. Obiectivul este de a retine cat mai multe informatii sau variatii posibil. Pentru matematicieni, componentele principale sunt vectori proprii ai matricei de covarianta a datelor.

  • Algoritmul K-Means – gaseste grupari discrete in cadrul datelor, in care membrii unui grup sunt cat mai asemanatori unii cu altii si cat mai diferiti de membrii altor grupuri.

  • IP Insights – invata modelele de utilizare pentru adresele IPv4. Este conceput pentru a captura asociatii intre adrese IPv4 si diverse entitati, cum ar fi ID-uri de utilizator sau numere de cont.

  • Algoritmul Random Cut Forest (RCF) – detecteaza puncte de date anormale intr-un set de date care difera de datele altfel bine structurate sau modelate.

Analiza textuala

SageMaker ofera algoritmi care sunt adaptati la analiza documentelor textuale utilizate in procesarea limbajului natural, clasificarea sau rezumarea documentelor, modelarea sau clasificarea subiectelor si transcrierea sau traducerea limbajului.

  • Algoritmul BlazingText – o implementare extrem de optimizata a Word2vec si algoritmi de clasificare a textului care se amplifica cu usurinta la seturi de date mari. Este util pentru multe sarcini de procesare a limbajului natural din aval (NLP).

  • Algoritm secventa-secventa – un algoritm supravegheat utilizat in mod obisnuit pentru traducerea automata neuronala.

  • Algoritm Latent Dirichlet Allocation (LDA) – un algoritm potrivit pentru determinarea subiectelor dintr-un set de documente. Este un algoritm nesupravegheat , ceea ce inseamna ca nu foloseste exemple de date cu raspunsuri in timpul antrenamentului.

  • Algoritmul modelului de subiect neuronal (NTM) – o alta tehnica nesupravegheata pentru determinarea subiectelor dintr-un set de documente, utilizand o abordare a retelei neuronale.

Procesarea imaginii

SageMaker ofera, de asemenea, algoritmi de procesare a imaginilor care sunt folositi pentru clasificarea imaginilor, detectarea obiectelor si viziunea computerizata.

  • Algoritmul de clasificare a imaginilor – foloseste exemple de date cu raspunsuri (denumit algoritm supravegheat ). Utilizati acest algoritm pentru a clasifica imaginile.

  • Algoritmul de segmentare semantica – ofera o abordare cu granulatie fina, la nivel de pixel, pentru dezvoltarea aplicatiilor de viziune pe computer.

  • Algoritm de detectare a obiectelor – detecteaza si clasifica obiecte in imagini utilizand o singura retea neuronala profunda. Este un algoritm de invatare supravegheat care ia imagini ca intrare si identifica toate cazurile de obiecte din scena imaginii.