Scopul a fost crearea unui model care poate prezice existenta unei Exoplanete, utilizand lecturile de flux (intensitatea luminii) de la 3198 stele diferite in timp. Pentru aceasta investigatie a setului de date, am folosit Python impreuna cu aceste biblioteci: Pandas, notebook Jupyter, SKLearn, Numpy, Scipy, Matplotlib si Seaborn. Daca doriti sa verificati cerintele proiectului sau codul sursa, il puteti gasi aici.

Setul de date este compus dintr-un test si un set de antrenament, care contine doua etichete diferite, 2 este o stea exoplaneta si 1 este o stea non-exoplaneta.

Array

Set de trenuri:

5087 randuri sau observatii.

3198 coloane sau caracteristici.

Coloana 1 este vectorul etichetei. Coloanele 2–3198 sunt valorile fluxului in timp.

Array

37 de stele exoplanete confirmate si 5050 de stele non-exoplaneta.

Set de teste:

570 de randuri sau observatii.

3198 coloane sau caracteristici.

Coloana 1 este vectorul etichetei.

Array

Coloanele 2–3198 sunt valorile fluxului in timp.

5 stele exoplanete confirmate si 565 stele non-exoplaneta.

Un exemplu de cateva coloane si randuri.

Probleme de remarcat

La inceput, cand am incercat prima data sa creez un complot, mi-am dat seama ca setul de date era curat, dar nu era normalizat.

Asa ca, din cauza asta, a trebuit sa creez o functie care sa faca asta pentru mine.

„Facem normalizarea datelor atunci cand cautam relatii. Unii oameni fac aceasta metoda, din pacate, in modele experimentale. Normalizarea in proiectele experimentale nu are sens, deoarece nu putem compara media, de exemplu, a unui tratament cu media unui alt tratament logaritmic normalizat. Cu toate acestea, in regresie si analize multivariate, relatiile sunt de interes, putem face normalizarea pentru a ajunge la o relatie liniara, mai robusta. In mod obisnuit, atunci cand relatia dintre doua seturi de date este neliniara, transformam datele pentru a ajunge la o relatie liniara. Aici, normalizarea nu inseamna normalizarea datelor, inseamna normalizarea reziduurilor prin transformarea datelor. Asadar, normalizarea datelor implica normalizarea reziduurilor folosind metodele de transformare. ”

Acestea sunt exemple de intensitate a luminii:

Distributie gaussiana

In teorie, distributia normala este o distributie continua de probabilitate.

„Distributia normala este utila din cauza teoremei limitei centrale. In forma sa cea mai generala, in anumite conditii (care includ varianta finita), se afirma ca mediile esantioanelor de observatii ale variabilelor aleatorii trase independent din distributii independente converg in distributie la normal, adica devin distribuite in mod normal atunci cand numarul de observatii este suficient de mare. ”

Exemplu de histograma gaussiana

Transformata Fourier

Cand aveti de-a face cu valori de intensitate de-a lungul timpului, ganditi-va la acestea ca la frecvente sau semnale de varianta diferite. Transformarea Fourier ne permite sa descompunem semnalele in frecvente independente, sa prelevam semnalele pe o perioada de timp (sau spatiu) si sa le impartim in componentele lor de frecventa.

Sursa imaginii: phys.org

Regresie liniara

Abordarea liniara este pentru modelarea relatiei dintre o variabila dependenta de scalar y si una sau mai multe variabile explicative denotate X.

Analiza componentelor principale (PCA)

Procedura de conversie a unui set de observatii ale variabilelor posibil corelate intr-un set de valori ale variabilelor liniar necorelate se numeste componente principale . In timp ce analizam componentele principale ale acestui set de date, observ ca primele 10 coloane reprezinta peste 70% din datele mele.

K-inseamna

Este o metoda de grupare a cuantificarii vectoriale. K-Means clustering isi propune sa imparta n observatii in k clustere in care fiecare observatie apartine clusterului cu cea mai apropiata medie, servind ca prototip al clusterului.

Si la urma urmei, am decis sa verific intensitatea luminii exoplanetelor si non-exoplanetelor si sa le compar intre ele.

Dupa ce mi-am creat modelul si predictiile, am fost curios sa stiu cat ne va lua pana la urma sa ajungem la acele exoplanete si sa comparam viteza cu Falcon Heavy. Asa ca am verificat mai intai distanta dintre Pamant si Marte, dar mi-am amintit ca distanta de la doua planete se schimba constant pe masura ce calatoresc in jurul soarelui.

„In teorie, cel mai aproape de care Pamantul si Marte s-ar apropia unul de celalalt ar fi atunci cand Marte se afla in punctul cel mai apropiat de soare (periheliu) si Pamantul se afla la cel mai indepartat (afeliu). Acest lucru ar pune planetele la numai 33,6 milioane de mile (54,6 milioane de kilometri) distanta. Cu toate acestea, acest lucru nu s-a intamplat niciodata in istoria inregistrata. Cea mai apropiata abordare inregistrata a celor doua planete a avut loc in 2003, cand se aflau la doar 56 de milioane de km distanta.

Falcon Heavy este cea mai puternica racheta operationala din lume cu un factor de doi. Cu capacitatea de a ridica pe orbita aproape 64 de tone metrice (141.000 lb) – o masa mai mare decat un avion 737 incarcat cu pasageri, echipaj, bagaje si combustibil – Falcon Heavy poate ridica mai mult de doua ori sarcina utila a celui mai apropiat vehicul operational cel mai apropiat, Delta IV Heavy, la o treime din cost.

Daca previziunile mele sunt corecte, ne-ar lua aproximativ 345 de ani lumina pentru a ajunge la aceste exoplanete.

Am fost foarte surprins de rezultatele acestei explorari de date; cosmologia este una dintre multele pasiuni, iar capacitatea de a crea aceste predictii a fost foarte satisfacatoare. Desi acesta a fost proiectul meu final pentru clasa mea de invatare automata, intentionez sa explorez in continuare dincolo de realizarile mele actuale. De asemenea, NASA si SpaceX ofera multe seturi de date care sunt distractive de explorat si sunt incantat sa vad ce voi putea realiza.

Resurse:

NASA Exoplanets 101 SpaceX Falcon Heavy Cum trebuie sa ajungi pe Marte de Space.com Kepler AI Github Kepler Dincolo de Planete Date deschise NASA

Daca sunteti interesat sa aflati mai multe despre aceste subiecte interesante, urmati-ma: Instagram, Linkedin, Twitter.