Algoritmos de clasificación supervisados y semi-supervisados: análisis y comparativa

Zarco García, Borja (2020). Algoritmos de clasificación supervisados y semi-supervisados: análisis y comparativa. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Algoritmos de clasificación supervisados y semi-supervisados: análisis y comparativa
Author/s:
  • Zarco García, Borja
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: 2020
Subjects:
Freetext Keywords: Data Mining; Algoritmos Supervisados; Algoritmos Semi-supervisados
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB)

Abstract

En la práctica, cuando se busca un algoritmo de Data Mining que ayude a extraer conocimiento de un conjunto de datos específico, se realizan muchas pruebas preliminares para identificar el que mejor captura la “esencia” de los datos. Normalmente, estas pruebas incluyen lanzar varios experimentos con diferentes algoritmos y diferentes configuraciones para cada uno de ellos. Esta actividad supone un coste elevado de recursos tanto computacionales como de tiempo. En particular, este coste se podría minimizar si se tiene en cuenta una serie de comportamientos típicos de los algoritmos sobre un conjunto de datos que puede caracterizarse de alguna manera. Para conocer cómo se comportaría un determinado algoritmo dado un conjunto de datos, resulta conveniente adaptar éste. Adicionalmente, es necesario modificar o pre-tratar el conjunto de datos para que éste también se adapte al formato de entrada que requiere el algoritmo. Si la situación requiere probar varios algoritmos entonces es posible que se generen varias versiones del conjunto de datos con modificaciones que incluyen la adaptación de los valores de entrada de tal manera que ellos representen las situaciones más típicas para extraer conocimiento sobre los datos. Por ejemplo, estas modificaciones o “adaptaciones” incluyen la normalización de los datos, la introducción de campos o valores vacíos o ruido, la adaptación de diferentes formatos de entrada y la eliminación de atributos. Por otro lado, si se quiere entender por qué un determinado algoritmo se comporta de la manera que lo hace frente a una situación, es necesario explicar el funcionamiento de éste y su naturaleza. Esto, junto con otros conceptos como el ciclo de la minería de Datos, la tipología de los algoritmos, la distribución del conjunto de datos inicial, las métricas de evaluación y comparación, son el marco de este documento y por tanto, de este Trabajo de Fin de Grado. En particular, una vez conseguidas las diferentes situaciones típicas, es el momento de realizar múltiples pruebas con cada uno de los algoritmos, para obtener resultados que puedan ser evaluados y así conocer qué algoritmo o algoritmos son los que mejor comportamiento y resultados exhiben en cada situación. La idea subyacente es que el análisis del comportamiento de diferentes algoritmos aplicados sobre el mismo conjunto de datos sea una experiencia de aprendizaje que permita extraer conocimiento de cómo utilizar éstos en otros contextos y escenarios de uso. Este es el objetivo principal de este Trabajo de Fin de Grado. Particularmente, esta experiencia se pretende alimentar con el conocimiento que se puede adquirir por medio de diferentes gráficas que muestran con facilidad cómo los algoritmos se comportan para las situaciones propuestas, enfrentándolos entre sí, y determinando cuáles se deberían utilizar primero para ocasiones y cuáles no. Abstract: In practice, when looking for a Data Mining algorithm to help extract knowledge from a specific data set, many preliminary tests are performed in order to identify the one that best captures the "essence" of the data. Typically, these tests include launching several experiments with different algorithms and different configurations for each of them. This activity involves a high cost of both computational resources and time. In particular, these costs could be reduced by taking into account a previous study about the typical behaviors of the algorithms on a data set in order to select the most appropriate and describe them. To know how a given algorithm would behave on a data set, it is convenient to adapt it to a specific use case scenario. Additionally, it is necessary to modify or pre-treat the data set so that it also adapts to the input format required by the algorithm. If the situation requires to test several algorithms, then it is possible that several versions of the data set can be generated with modifications that include the required adaptations. For example, these modifications or "adaptations" include the normalization of the data, the introduction of empty fields or noise, the adaptation of different input formats and the removal of attributes. On the other hand, if it is wanted to understand why a certain algorithm behaves the way it does in a situation, it is necessary to explain how it works and its specific nature. It includes, among other concepts, the cycle of Data Mining, the typology of the algorithms, the distribution of the initial data set, the evaluation and comparison metrics. All of them topics are the core of this document, and therefore the theoretical frameworks of this Final Degree project. Once the different concepts had been analyzed, it is time to perform multiple tests for each algorithm, in order to obtain results that can be evaluated to know which algorithm or algorithms exhibiting the best behaviors and results in each situation. The underlying idea for it is that the analysis of the behavior of different algorithms applied on the same set of data is a learning experience that allows us to extract knowledge of how to use them in other contexts and use scenarios. In particular, this is the main objective of this Final Project Degree. Additionally, this experience is intended to feed with the knowledge that can be acquired through different graphs that show easily how the algorithms behave for the proposed situations, facing them with each other, and determining which should be used in specific scenarios and which not.

More information

Item ID: 64891
DC Identifier: https://oa.upm.es/64891/
OAI Identifier: oai:oa.upm.es:64891
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 22 Oct 2020 09:23
Last Modified: 22 Oct 2020 09:23
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM