Elements of Data Science este o introducere in stiinta datelor pentru persoanele fara experienta in programare. Scopul meu este sa prezint un subset mic si puternic de Python care va permite sa faceti lucrari reale in stiinta datelor cat mai repede posibil.

Nu presupun ca cititorul stie ceva despre programare, statistici sau stiinta datelor. Cand folosesc un termen, incerc sa-l definesc imediat si cand folosesc o caracteristica de programare, incerc sa-l explic.

Aceasta carte este sub forma de caiete Jupyter. Jupyter este un instrument de dezvoltare software pe care il puteti rula intr-un browser web, deci nu trebuie sa instalati niciun software. Un blocnotes Jupyter este un document care contine text, cod Python si rezultate. Asadar, il puteti citi ca pe o carte, dar puteti, de asemenea, sa modificati codul, sa il rulati, sa dezvoltati noi programe si sa le testati.

Caietele contin exercitii in care poti exersa ceea ce inveti. Majoritatea exercitiilor sunt menite sa fie rapide, dar cateva sunt mai substantiale.

Licenta pentru aceasta carte este Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0).

Acest material este o lucrare in curs, asa ca sugestiile sunt binevenite. Cel mai bun mod de a oferi feedback este sa faceti clic aici si sa creati o problema in acest depozit GitHub.

Studii de caz

In plus fata de caietele de mai jos, programa Elements of Data Science include aceste studii de caz:

Caietele

Pentru fiecare dintre caietele de mai jos, aveti trei optiuni:

  • Daca vizualizati notebook-ul pe NBViewer, il puteti citi, dar nu puteti rula codul.

  • Daca rulati notebook-ul pe Colab, veti putea rula codul, efectuati exercitiile si salvati versiunea modificata a notebook-ului intr-un Google Drive (daca aveti unul).

  • Sau, daca descarcati notebook-ul, il puteti rula in propriul mediu. Dar, in acest caz, depinde de dvs. sa va asigurati ca aveti bibliotecile de care aveti nevoie.

Caietul 1

Variabile si valori : primul caiet explica modul de utilizare a Jupyter si introduce variabile, valori si calcul numeric.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 2

Ora si locurile : acest caiet arata cum sa reprezentam orele, datele si locatiile din Python si foloseste biblioteca GeoPandas pentru a trasa puncte pe o harta.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 3

Liste si tablouri : Acest caiet prezinta liste si tablouri NumPy. Discuta erorile absolute, relative si procentuale si modalitatile de a le rezuma.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 4

Bucle si fisiere : Acest caiet prezinta bucla for si instructiunea if; apoi le foloseste pentru a citi rapid Razboi si pace si a numara cuvintele.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 5

Dictionare : Acest caiet prezinta una dintre cele mai puternice caracteristici ale Python, dictionarele si le foloseste pentru a numara cuvintele unice dintr-un text si frecventele acestora.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 6

Ploting : Acest notebook introduce o biblioteca de plotare, Matplotlib, si il foloseste pentru a genera cateva vizualizari de date comune si una mai putin comuna, un grafic Zipf.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 7

DataFrames : Acest caiet prezinta DataFrames, care sunt utilizate pentru a reprezenta tabele de date. De exemplu, foloseste datele din National Survey of Family Growth pentru a gasi greutatea medie a bebelusilor din SUA

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 8

Distributii : Acest caiet explica ce este o distributie si prezinta 3 moduri de a reprezenta una: un PMF, CDF sau PDF. De asemenea, arata cum sa comparati o distributie cu o alta distributie sau un model matematic.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 9

Relatii : acest caiet exploreaza relatiile dintre variabile folosind graficele dispersate, graficele pentru vioara si graficele cutiei. Cuantifica forta unei relatii utilizand coeficientul de corelatie si foloseste regresia simpla pentru a estima panta unei linii.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 10

Regresie : Acest caiet prezinta regresie multipla si il foloseste pentru a explora relatia dintre varsta, educatie si venit. Foloseste vizualizarea pentru a interpreta modele multivariate. De asemenea, prezinta variabile binare si regresie logistica.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 11

Resampling : Acest caiet prezinta metode de calcul pe care le putem folosi pentru a cuantifica variatia datorata esantionarii aleatorii, care este una dintre mai multe surse de eroare in estimarea statistica.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 12

Bootstrapping : Bootstrapping-ul este un fel de resamplare care se potriveste cu tipul de date de sondaj cu care am lucrat.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca

Caietul 13

Testarea ipotezei : Testarea ipotezei este problema bug-urilor statisticilor clasice. Acest caiet prezinta o abordare de calcul a subiectului care arata clar ca exista un singur test.

Faceti clic aici pentru a rula acest notebook pe Colab

sau faceti clic aici pentru al descarca