SOFIA_MALE: software integrado para algoritmos de machine learning

Gil Borrás, Sergio (2017). SOFIA_MALE: software integrado para algoritmos de machine learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Descripción

Título: SOFIA_MALE: software integrado para algoritmos de machine learning
Autor/es:
  • Gil Borrás, Sergio
Director/es:
  • Gómez Canaval, Sandra
  • Mozo Velasco, Alberto
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería de Computadores
Fecha: Junio 2017
Materias:
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (57kB)
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (44MB)
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (3MB)
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (1kB)
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (1MB)
[img] Archivo comprimido ZIP - Acceso permitido solamente a usuarios en el campus de la UPM
Descargar (66kB)

Resumen

RESUMEN La era del Big Data (de ahí su nombre) ha traído consigo el rápido acceso a una cantidad ingen-te de datos provenientes de diferentes fuentes con formatos diversos que son generados de forma regular y continua por cada una de ellas. Dichos datos están siendo recolectados y al-macenados por una parte considerable del sector industrial, empresarial, académico y científi-co a la misma velocidad que la ha recibido. La integración de las bases de datos, que almace-nan dicha información, son un instrumento deseado por todos estos sectores con el fin de hacer minería de datos, optimización, descubrimiento de patrones y sacar análisis valiosos sobre tendencias en marketing, comportamiento social, tendencias entre otros muchos inter-eses. Para llevar a cabo el análisis de estos datos son necesarios algoritmos de Machine Learning, entre los cuales encontramos algoritmos de Data Mining, predicción, búsqueda de patrones, entre otros. Muchos algoritmos en estos campos llevan muchos años siendo utilizados en el análisis tradicional de datos. Sin embargo, muchos de ellos pueden no ser capaces de abordar el tratamiento de grandes cantidades de datos. En particular, en el campo tradicional del Data Mining existen una gran cantidad de algoritmos ampliamente utilizados y caracterizados que pueden ser aplicables a un modelo de datos específico. Aunque este conjunto de algoritmos y el modelo de datos a los cuales pueden ser aplicados están bien caracterizados, existen dos problemas considerables a la hora de aplicar estos algoritmos a un dataset particular con una cantidad ingente de datos. En primer lugar, es probable que a priori no se tenga conocimientos previos de la caracterización interna de dicho dataset y ello conduce al siguiente problema, al no tener conocimiento de dicho dataset no se puede a priori tener conocimiento de cuál de los algoritmos se puede ajustar mejor para obtener los resultados que se persiguen. Aun teniendo información para dilucidar estos dos problemas, existen otro problema inherente la elección correcta de los parámetros de entrada de algunos de estos algoritmos es una decisión que requiere cierto conocimiento de algunas técnicas existentes para optimizar la ejecución de dichos algoritmos. En cuanto a la ejecución de estos algoritmos, un punto importante es que si se requieren procesar grandes volúmenes de datos, es necesario recurrir a algoritmos capaces de procesar de forma inteligente y lo más eficiente posible todos estos datos. La cuestión que se plantea en este Proyecto de Fin de Grado tiene que ver con la elección de un algoritmo y la elección de los parámetros asociados para ser aplicados a un dataset de ta-maño considerable cuándo no tenemos mucho conocimiento de cómo es el dataset y de qué algoritmo puede ser más aconsejable utilizar. En este contexto, en este Proyecto se plantea el desarrollo de una plataforma web colaborativa para analizar de forma eficiente grandes volú-menes de datos a través de algoritmos tradicionales de Machine Learning relacionados con el campo del Data Mining, específicamente aquellos relacionados con el clustering y la clasificación. ABSTRACT The Big Data era (hence its name) has brought with it a fast access to huge quantity of data. They are from different sources and with miscellaneous formats. These data are generated continually and regularly from these sources. The data being gathered and stored comes from a big part of the sectors like industrial, business, academy, and scientific at the same speed they receive it. The integration of the data bases to store this information is a desired tool for each of these sectors, whose purpose is to do data mining, optimization, discovery of patterns and to take valuable analysis on trends in marketing, social behavior, among many other inter-ests. To carry out the analysis of these data, algorithms of Machine learning are necessary. Among them we find algorithms of data mining, predictions, search of patterns between others. A lot of algorithms in these fields have been used for many years in the traditional analysis of data. However, a lot of them cannot be able to work with a huge quantity of data. In particular, in traditional field of data mining exist a large number of widely used and characterized algo-rithms, which may be applicable to a specific data model, even if this set of algorithms and the model of data to which it can be applied, is properly characterized. There are two problems to consider when applying these algorithms to a particular dataset with a huge quantity of data. First, it is likely that they do not have previous knowledge of the internal characterization of the dataset. This leads us to the next problem. If we do not have knowledge of the dataset, we will not be able to know which algorithms are better to get the results that we are looking for. Even when there is information to solve this problem; there is another one, inherent to choose the value of algorithms' parameters. This choice requires some knowledge of existing tech-niques to optimize the execution of the algorithms. As to the execution of the algorithms, an important key is the volume of data to process. It is necessary the use of algorithms to process the data in a smart and efficient way. The question posed in this final project is related to the choosing of the algorithm and its asso-ciated parameters to be applied to a large size dataset when the characteristics of such dataset are not known. In this context, the project proposes a collaborative platform to analyze big volume of data in an efficient way through traditional machine learning algorithms’ related to the data mining field, and specifically with algorithms of clustering and classifiers.

Más información

ID de Registro: 48908
Identificador DC: http://oa.upm.es/48908/
Identificador OAI: oai:oa.upm.es:48908
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 09 Ene 2018 15:41
Ultima Modificación: 09 Ene 2018 15:41
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM