Elements of Data Science este o introducere in stiinta datelor pentru persoanele fara experienta in programare. Scopul meu este sa prezint un subset mic si puternic de Python care va permite sa faceti lucrari reale in stiinta datelor cat mai repede posibil.
Nu presupun ca cititorul stie ceva despre programare, statistici sau stiinta datelor. Cand folosesc un termen, incerc sa-l definesc imediat si cand folosesc o caracteristica de programare, incerc sa-l explic.
Aceasta carte este sub forma de caiete Jupyter. Jupyter este un instrument de dezvoltare software pe care il puteti rula intr-un browser web, deci nu trebuie sa instalati niciun software. Un blocnotes Jupyter este un document care contine text, cod Python si rezultate. Asadar, il puteti citi ca pe o carte, dar puteti, de asemenea, sa modificati codul, sa il rulati, sa dezvoltati noi programe si sa le testati.
Caietele contin exercitii in care poti exersa ceea ce inveti. Majoritatea exercitiilor sunt menite sa fie rapide, dar cateva sunt mai substantiale.
Licenta pentru aceasta carte este Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0).
Acest material este o lucrare in curs, asa ca sugestiile sunt binevenite. Cel mai bun mod de a oferi feedback este sa faceti clic aici si sa creati o problema in acest depozit GitHub.
Studii de caz
In plus fata de caietele de mai jos, programa Elements of Data Science include aceste studii de caz:
-
Studiu de caz privind alinierea politica: Folosind datele din Studiul social general, acest studiu de caz exploreaza schimbarea opiniilor cu privire la o varietate de subiecte in randul respondentilor la sondaj din Statele Unite. Cititorii aleg una dintre cele 120 de intrebari ale sondajului si vad cum s-au schimbat raspunsurile de-a lungul timpului si cum au legatura aceste schimbari cu alinierea politica (conservatoare, moderata sau liberala).
-
Studiu de caz de recidiva: Acest studiu de caz se bazeaza pe o lucrare bine cunoscuta, „Machine Bias”, care a fost publicata de Politico in 2016. Se refera la COMPAS, un instrument statistic utilizat in sistemul de justitie penala pentru a evalua riscul ca un inculpat sa sa comita o alta infractiune daca este eliberat. Articolul ProPublica conchide ca COMPAS este nedrept fata de inculpatii negri, deoarece este mai probabil sa fie clasificati gresit ca fiind un risc ridicat.
videos porno casero españa fiestas porno
peliculas eroticas alemanas porno tv
miakalifa porni
maturehd amas de casa follando
se corre en el coño de su hija pornox
me gusta follar española follando
video sexo porno fiestas
amas de casa infieles incesto x
maduras masturbandose largeporntube
incesto subtitulado español tias corriendose
abuelas tragando leche todoporno
comic maduras pilladas desnudas
videos porno corridas internas madresxxx
fiestas porno maduras folladoras
mature.com maduras en la playa
porno gratis viejas mujer masturbandose
vecina mirona masturbaciones
videos actrices españolas desnudas p0rno
pajas caseras michelle jenner desnuda
se folla a su cuñada maduras sexUn articol de raspuns din Washington Post sugereaza ca „De fapt nu este atat de clar”. Folosind datele din articolul original, acest studiu de caz explica (multe) valori utilizate pentru evaluarea clasificatorilor binari, arata provocarile definirii corectitudinii algoritmice si incepe o discutie despre contextul, etica si impactul social al stiintei datelor.
-
Bite Size Bayes: o introducere in probabilitate, cu accent pe teorema lui Bayes.
-
Date astronomice in Python: o introducere in SQL folosind datele de la telescopul spatial Gaia ca exemplu.
Caietele
Pentru fiecare dintre caietele de mai jos, aveti trei optiuni:
-
Daca vizualizati notebook-ul pe NBViewer, il puteti citi, dar nu puteti rula codul.
-
Daca rulati notebook-ul pe Colab, veti putea rula codul, efectuati exercitiile si salvati versiunea modificata a notebook-ului intr-un Google Drive (daca aveti unul).
-
Sau, daca descarcati notebook-ul, il puteti rula in propriul mediu. Dar, in acest caz, depinde de dvs. sa va asigurati ca aveti bibliotecile de care aveti nevoie.
Caietul 1
Variabile si valori : primul caiet explica modul de utilizare a Jupyter si introduce variabile, valori si calcul numeric.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 2
Ora si locurile : acest caiet arata cum sa reprezentam orele, datele si locatiile din Python si foloseste biblioteca GeoPandas pentru a trasa puncte pe o harta.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 3
Liste si tablouri : Acest caiet prezinta liste si tablouri NumPy. Discuta erorile absolute, relative si procentuale si modalitatile de a le rezuma.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 4
Bucle si fisiere : Acest caiet prezinta bucla for si instructiunea if; apoi le foloseste pentru a citi rapid Razboi si pace si a numara cuvintele.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 5
Dictionare : Acest caiet prezinta una dintre cele mai puternice caracteristici ale Python, dictionarele si le foloseste pentru a numara cuvintele unice dintr-un text si frecventele acestora.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 6
Ploting : Acest notebook introduce o biblioteca de plotare, Matplotlib, si il foloseste pentru a genera cateva vizualizari de date comune si una mai putin comuna, un grafic Zipf.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 7
DataFrames : Acest caiet prezinta DataFrames, care sunt utilizate pentru a reprezenta tabele de date. De exemplu, foloseste datele din National Survey of Family Growth pentru a gasi greutatea medie a bebelusilor din SUA
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 8
Distributii : Acest caiet explica ce este o distributie si prezinta 3 moduri de a reprezenta una: un PMF, CDF sau PDF. De asemenea, arata cum sa comparati o distributie cu o alta distributie sau un model matematic.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 9
Relatii : acest caiet exploreaza relatiile dintre variabile folosind graficele dispersate, graficele pentru vioara si graficele cutiei. Cuantifica forta unei relatii utilizand coeficientul de corelatie si foloseste regresia simpla pentru a estima panta unei linii.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 10
Regresie : Acest caiet prezinta regresie multipla si il foloseste pentru a explora relatia dintre varsta, educatie si venit. Foloseste vizualizarea pentru a interpreta modele multivariate. De asemenea, prezinta variabile binare si regresie logistica.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 11
Resampling : Acest caiet prezinta metode de calcul pe care le putem folosi pentru a cuantifica variatia datorata esantionarii aleatorii, care este una dintre mai multe surse de eroare in estimarea statistica.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 12
Bootstrapping : Bootstrapping-ul este un fel de resamplare care se potriveste cu tipul de date de sondaj cu care am lucrat.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca
Caietul 13
Testarea ipotezei : Testarea ipotezei este problema bug-urilor statisticilor clasice. Acest caiet prezinta o abordare de calcul a subiectului care arata clar ca exista un singur test.
Faceti clic aici pentru a rula acest notebook pe Colab
sau faceti clic aici pentru al descarca








