Scop
Acest pachet este axat pe utilizarea datelor Twitter datorita acceptarii sale pe scara larga la nivel mondial. Extinderea rapida si acceptarea retelelor sociale au deschis portile catre opinii si perceptii care nu au fost niciodata la fel de accesibile ca si prevalenta actuala a tehnologiei mobile. Datele Twitter recoltate, analizate pentru opinii si sentimente, pot oferi o perspectiva puternica asupra populatiei. Aceasta perspectiva poate ajuta companiile, permitandu-le sa inteleaga mai bine populatia tinta. Cunostintele acumulate pot permite, de asemenea, guvernelor sa inteleaga mai bine o populatie, astfel incat sa poata lua decizii mai informate pentru acea populatie. Pe parcursul acestei cercetari, datele au fost achizitionate prin intermediul interfetei publice de programare a aplicatiilor Twitter (API), pentru a obtine Tweets ca baza a datelor si va construi o metodologie utilizand o abordare lexicografica si de modelare a subiectului pentru a analiza sentimentul si opiniile textului in limba engleza pentru a determina un sentiment general, cum ar fi pozitiv sau negativ. Cu cat mai multi oameni se exprima pe retelele de socializare, aceasta aplicatie poate fi utilizata pentru a evalua sentimentul general al oamenilor.
Pachet
Pachetul saotd este o interfata R pentru API-ul Twitter si poate fi utilizat pentru a achizitiona Tweets pe baza #hashtag-urilor selectate de utilizator si a fost dezvoltat utilizand o abordare ordonata. Pachetul a fost conceput pentru a permite utilizatorului sa efectueze o analiza completa cu functiile continute. Pachetul va curata si ordona datele de pe Twitter, va determina subiectele latente din Tweets utilizand Latent Dirichlet Allocation (LDA), va determina un scor de sentiment folosind dictionarul de lexic Bing si va afisa vizualizari.
Instalare
Puteti instala versiunea CRAN folosind:
Puteti instala versiunea de dezvoltare din GitHub folosind:
Folosind saotd
Functiile furnizate de saotd sunt impartite in cinci categorii diferite: Achizitionare, Explorare, Analiza subiectelor, Calculul sentimentelor si Vizualizari.
-
Dobandi
- tweet_acquire permite utilizatorului sa achizitioneze Tweets la alegere accesand API-ul Twitter. Pentru a face acest lucru, utilizatorul trebuie sa aiba un cont Twitter. In plus, odata ce utilizatorul are un cont, va trebui sa se inscrie pentru un cont de dezvoltatori Twitter. Odata ce un utilizator are un cont de dezvoltatori Twitter si a primit cheia de consumator individuala, cheia secreta a consumatorului, jetonul de acces si cheia secreta de acces, acesta poate achizitiona Tweets pe baza unei liste de hashtag-uri si a unui numar solicitat de intrari per hashtag.
-
Explora
- tweet_tidy elimina toate emoticoanele, punctuatia, linkurile web etc. si converteste datele transforma o structura ordonata.
- merge_terms combina termenii intr-un cadru de date si previne redundanta in analiza.
- unigram afiseaza textul Uni-Grams in datele Twitter in ordine de la cel mai utilizat la cel mai putin utilizat.
follando en silencio jovencitasxxx
me follo a la vecina tetas en la playa
incesto x madres españolas follando con hijos
pilladas de torbes cincuentonas
buenas pajas viejas tetonas
sobar tetas lesbianas incesto
orgias caseras tias cachondas
pajas en español pilladas meando
lesbianas maduras españolas porno gay trios
me follo a mi madrastra chicas corriendose
lesbianas scat porno amater español
mamadas en el cine lesbianas preciosas
trios con españolas maduras masturbandose
porno abuelas tetonas folladas extremas
chica se masturba coños maduros
mama incesto come pollas
xxx españa mujeres normales desnudas
follando con mi mujer pirno
corridas brutales en la boca follando en casa
penes enormes tupornUn Uni-Gram este un singur cuvant.
- bigram afiseaza textul Bi-Grams in datele Twitter in ordine de la cel mai folosit la cel mai putin utilizat. Un Bi-Gram este o combinatie de doua cuvinte consecutive.
- trigrama afiseaza textul Tri-Grams in datele Twitter in ordine de la cel mai utilizat la cel mai putin utilizat. Un Tri-Gram este o combinatie de trei cuvinte consecutive.
- bigram_network Retelele Bi-Gram se bazeaza pe Bi-Gram calculate. Retelele Bi-Gram servesc ca instrument de vizualizare care afiseaza simultan relatiile dintre cuvinte, spre deosebire de afisarea tabelara a cuvintelor Bi-Gram.
- word_corr afiseaza corelatia cuvantului dintre cuvinte.
- word_corr_network afiseaza relatia reciproca dintre cuvinte. Reteaua de corelatie prezinta corelatii mai mari cu o culoare a marginii mai groasa si mai inchisa.
-
Analiza subiectului
- number_topics determina numarul optim de subiecte latente intr-un cadru de date prin reglarea parametrilor modelului Latent Dirichlet Allocation (LDA). Foloseste pachetul ldatuning si produce un grafic ldatuning. Acest proces poate consuma mult timp, in functie de dimensiunea cadrului de date.
- tweet_topics determina subiectele latente dintr-un cadru de date utilizand parametrii modelului Latent Dirichlet Allocation (LDA). Foloseste pachetul ldatuning si produce un grafic ldatuning. Pregateste textul Tweetului, creeaza DTM, conduce LDA, afiseaza termenii de date asociati fiecarui subiect.
-
Calculul sentimentului
- tweet_scores calculeaza Scorurile Sentimentului utilizand Dictionarul Bing Lexicon, care va explica sentimentul prin hashtag sau subiect.
- posneg_words determina si afiseaza cele mai pozitive si negative cuvinte din datele Twitter.
- tweet_min_scores determina scorurile minime fie pentru intregul set de date, fie scorurile minime asociate cu un hashtag sau o analiza a subiectului.
- tweet_max_scores determina scorurile maxime fie pentru intregul set de date, fie scorurile maxime asociate cu un hashtag sau o analiza de subiect.
-
Vizualizari
- tweet_corpus_distribution determina distributia scorurilor pentru intregul corp de date Twitter.
- tweet_distribution determina distributia scorurilor dupa hashtag sau subiect pentru datele Twitter.
- tweet_box afiseaza scorurile de distributie ale hashtagului sau ale datelor de subiect Twitter.
- tweet_violin afiseaza scorurile de distributie fie ale hashtagului, fie ale datelor de subiect Twitter.
- tweet_time afiseaza modul in care se evalueaza sentimentul de date Twitter in timp.
- tweet_worldmap afiseaza locatia unui Tweet in intreaga lume dupa hashtag sau subiect.
Exemplu
Pentru un exemplu de utilizare a acestui pachet, gasiti vigneta la:
Meta
-
Licenta:
- Toate codurile sunt licentiate GPL.
- Toate datele provin din surse publice de date.
-
Obtineti informatii despre citarea saotd in R ruland:
Obtinerea ajutorului
Daca intalniti o eroare clara, va rugam sa inregistrati un exemplu minim reproductibil pe github.
Contribuind
Daca doriti sa contribuiti, va rugam sa creati o cerere de extragere si sa faceti modificarile aplicabile corespunzatoare pentru examinare.
Referinte
- AFIT Data Science Lab
- Tidyverse
- Text Mining cu R
- ldatuning
- topicmodels








