Aprendizaje automático para flujos de datos

Ramos Fernández, Javier (2019). Aprendizaje automático para flujos de datos. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Aprendizaje automático para flujos de datos
Author/s:
  • Ramos Fernández, Javier
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: 2019
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_JAVIER_RAMOS_FERNANDEZ.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

En la actualidad existen numerosas aplicaciones que generan constantemente datos tales como transacciones financieras, consumo de electricidad, datos de monitorización de tráfico, registros telefónicos, búsquedas en Internet, información que se sube a las redes sociales, etcétera. Debido a la existencia de una gran variedad de aplicaciones que generan estos tipos de datos, en los últimos años ha surgido un gran interés por crear modelos que representen estos flujos continuos de datos. Éstos imponen una serie de restricciones a la hora de crear modelos de aprendizaje automático que representen la distribución subyacente a los mismos, de tal forma que las técnicas de aprendizaje automático convencionales no son adecuadas para llevar a cabo esta tarea. La principal característica de los flujos de datos es que el concepto que los describe puede evolucionar en el transcurso del tiempo, y las técnicas tradicionales construyen modelos a partir de conjuntos de datos estáticos, de manera que un modelo que se cree en un instante de tiempo puede que se quede obsoleto en un instante de tiempo posterior. De esta manera, es necesario adaptar dichas técnicas a la naturaleza dinámica de los flujos de datos o crear nuevas con el objetivo de tener un modelo consistente que permita representar de la mejor forma posible el concepto de los datos en cualquier instante de tiempo. A partir de este hecho, en este trabajo el objetivo principal es realizar un estado del arte sobre las diferentes técnicas de aprendizaje automático propuestas para tratar con la modelización de flujos de datos. Concretamente, se van a abordar tanto algoritmos de aprendizaje supervisado como no supervisado, así como redes bayesianas para el descubrimiento de conocimiento. Con respecto a los algoritmos de aprendizaje supervisado, vamos a hacer hincapié en aquellos que gozan de mayor popularidad, que son los clasificadores bayesianos, los árboles de decisión, la inducción de reglas, las redes neuronales, los k-Vecinos más cercanos, las máquinas de vectores soporte, la regresión logística y la combinación de métodos de aprendizaje. En cuanto a los algoritmos de aprendizaje no supervisado, nos centraremos en aquellos que abordan un agrupamiento de los datos debido a su amplia utilización en la aplicación de aprendizaje automático sobre datos; concretamente, nos enfocaremos en abordar métodos de agrupamiento particional y jerárquico debido a la amplia gama de propuestas que tratan estos tipos de agrupamiento. Por último, atentiendo a las redes bayesianas para el descubrimiento del conocimiento, nos enfocaremos en aquellas utilizadas para manejar incertidumbre en entornos donde el estado de las variables evoluciona con el tiempo, que son principalmente las redes bayesianas dinámicas, las redes bayesianas en tiempo continuo y las redes bayesianas de nodos temporales. Para cada uno de los tipos de algoritmos presentes en este trabajo se muestra una tabla comparativa de las diferentes propuestas abordadas.---ABSTRACT---Today there are numerous applications that constantly generate data such as financial transactions, electricity consumption, traffic monitoring data, telephone records, Internet searches, information that is uploaded to social networks, and so on. Due to the existence of a great variety of applications that generate these types of data, in the last years a great interest has arisen to create models that represent these continuous data streams. These impose a number of constraints on creating machine learning models that represent the underlying distribution, so that conventional machine learning techniques are not suitable for carrying out this task. The main feature of data streams is that the concept that describes them can evolve over time, and traditional techniques construct models from static datasets, so that a model that is created at an instant of time may become obsolete at a later instant of time. In this way, it is necessary to adapt these techniques to the dynamic nature of the data streams or to create new ones with the objective of having a consistent model that allows the best possible representation of the concept of the data at any instant of time. From this fact, the main objective of this work is to carry out a state of the art on the different machine learning techniques proposed to deal with the modelling of data streams. Specifically, both supervised and unsupervised learning algorithms will be addressed, as well as Bayesian networks for knowledge discovery. As regards supervised learning algorithms, we will focus on those that enjoy more popularity, which are Bayesian classifiers, decision trees, rule induction, neural networks, k-nearest Neighbors, support vector machines, logistic regression and ensemble methods. As unsupervised learning algorithms are concerned, we will deal with those that address data clustering due to their wide use in the application of machine learning on data; specifically, we will focus on addressing partitional and hierarchical clustering methods because of the wide range of proposals that address these types of clustering for data streams. Finally, looking at Bayesian networks for the knowledge discovery, we will describe those used to manage uncertainty in environments where the state of variables evolves over time, which are mainly dynamic Bayesian networks, continuous time Bayesian networks and temporal nodes Bayesian networks. For each type of algorithms present in this work we show a comparative table of the different proposals addressed.

More information

Item ID: 56025
DC Identifier: https://oa.upm.es/56025/
OAI Identifier: oai:oa.upm.es:56025
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 08 Aug 2019 13:09
Last Modified: 20 May 2022 17:07
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM