Machine Learning para el tratamiento de datos y la detección de exoplanetas mediante el método de tránsito

Gómez de Diego, José Javier (2020). Machine Learning para el tratamiento de datos y la detección de exoplanetas mediante el método de tránsito. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Machine Learning para el tratamiento de datos y la detección de exoplanetas mediante el método de tránsito
Author/s:
  • Gómez de Diego, José Javier
Contributor/s:
  • Ortega Requena, Fernando
Item Type: Final Project
Degree: Grado en Sistemas de Información
Date: July 2020
Subjects:
Freetext Keywords: Técnicas en gestión de datos
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (11MB)

Abstract

Uno de los siguientes pasos en la exploración espacial es encontrar planetas más allá del sistema solar que, potencialmente, puedan albergar signos de vida extraterrestre. Estos planetas que orbitan otras estrellas son conocidos como exoplanetas. Las complejas técnicas utilizadas para su detección recaban una inmensa cantidad de datos que deben ser cuidadosamente tratados y adecuados para su posterior análisis en busca de estos mundos. Existen multitud de métodos para la detección de estos exoplanetas que arrojan una gran diversidad de datos. Estos métodos van desde la observación de estrellas en busca de movimientos radiales de las mismas provocados por distorsiones gravitacionales, hasta la observación en bruto del espacio vacío con el objetivo de detectar picos de luz producto de la deformación del espacio-tiempo derivada de la presencia de exoplanetas. Uno de los métodos más comúnmente utilizados es conocido como el método de tránsito. Éste consiste en observar las estrellas en busca de disminuciones de luz provocadas por posibles exoplanetas transitando entre la estrella y el observador. Esta información queda plasmada en los datos recogidos por los telescopios, que deben ser procesados, tratados y analizados. Estas tareas se pueden llevar a cabo de forma masiva y automatizada mediante distintas técnicas de Machine Learning. El Machine Learning ofrece la posibilidad de gestionar todo tipo de datos gracias a su naturaleza automatizada y a su punto más fuerte: el aprendizaje. Debido a la gran variedad de técnicas que se pueden aplicar en el tratamiento de datos, el machine learning es utilizado en un gran número de trabajos e investigaciones, entre las que se encuentra, por supuesto, la detección de exoplanetas. Los datos derivados de estas tareas requieren un alto nivel de procesado y un alto grado de automatización debido a la compleja naturaleza y magnitud de los mismos. Para ello, existen ciertas técnicas que pueden realizar gran parte del tratamiento y, en concreto, la clasificación de los datos recogidos. Los problemas que presentan los datos resultantes del método de tránsito suelen ser de dos tipos: un número de dimensiones excesivamente elevado, lo que dificulta el procesado y clasificación de los mismos y cuya solución pasa por la reducción de dimensiones; y el desbalanceamiento del conjunto de datos, lo que hace que, a la hora de clasificar, los algoritmos puedan desarrollar cierto sesgo hacia el tipo de datos mayoritarios, resultando en una clasificación poco ajustada a la realidad. En cuanto a la clasificación, existen multitud de algoritmos que pueden ser entrenados partiendo de un conjunto de datos ya tratados para, posteriormente, lograr clasificar correctamente nuevos datos derivados de nuevas observaciones. De esta forma, el trabajo de categorizar los datos se puede llegar a automatizar en gran medida. En este proyecto se presentarán las principales técnicas y modelos de machine learning para el tratamiento y clasificación de datos, se emplearán algunos de ellos para adecuar conjuntos de datos de observaciones realizadas por la misión Kepler de la NASA y, finalmente, se construirá un modelo de predicción y se analizará su precisión a la hora de detectar exoplanetas. Abstract: Next step in space exploration is to find planets beyond the Solar System which may potentially harbor life. These types of planets orbiting other stars are known as exoplanets. The complex techniques used for their detection collect an immense amount of data that must be carefully processed and adapted for further analysis in search of other worlds. There are a large variety of methods and techniques for detecting these exoplanets that provides a vast diversity of data. These techniques go from stars observation looking for radial motion derived from gravitational distortions, to the crude monitoring of the empty space in the search of light spikes as a product of the space-time deformation due to exoplanets presence. One of the most widely used techniques is called transit. It consists of observing stars to detect decreases in light brightness derived from a possible exoplanet transiting between the star and the observer. This information is captured with the data collected by telescopes, which must be processed, adapted and analyzed. These tasks can be performed automatically through different machine learning methods. Machine learning offers the possibility to manage all kinds of data thanks to its automation and also its capacity to learn, which is its strongest feature. Owing to the vast diversity of techniques that can be applied to data processing, machine learning is used in a big number of research processes, including exoplanets hunting. These tasks produce data that requires a high level of processing as well as automation due to its complexity and great magnitude. Therefore, there are certain methods that can carry out a large part of the processing and, specifically, the classification of the collected data. The main challenges that data resulting from the transit method are usually two: an excessively high number of dimensions, which makes data processing and classification too heavy and makes it necessary to apply some dimensions reduction techniques; and an unbalanced dataset, which can make algorithms biased when it comes to classification, resulting in an inaccurate classification of the data. Regarding to classification, there are plenty of algorithms that can be trained with a processed dataset to classify accurately new data from observations. Thus, classifying data can become a complete automated work. In this project, the main machine learning models and techniques for data processing and classification will be introduced, some of them will be used to adapt datasets from the NASA’s Kepler mission and, finally, a model for prediction will be built and analyzed how accurately it performs.

More information

Item ID: 63785
DC Identifier: http://oa.upm.es/63785/
OAI Identifier: oai:oa.upm.es:63785
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 14 Sep 2020 09:27
Last Modified: 14 Sep 2020 09:27
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM