Algoritmos de clasificación para datasets desequilibrados: análisis y comparativa

Galindo Huerta, Adrián (2018). Algoritmos de clasificación para datasets desequilibrados: análisis y comparativa. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Algoritmos de clasificación para datasets desequilibrados: análisis y comparativa
Author/s:
  • Galindo Huerta, Adrián
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería de Computadores
Date: 2018
Subjects:
Freetext Keywords: Machine learning Técnicas de ingeniería del conocimiento
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (670kB) | Preview

Abstract

Con el advenimiento del Big Data, los problemas para obtener una clasificación fiable en conjuntos de datos no estructurados resulta ser un impedimento importante dentro de la aplicabilidad de estos algoritmos en escenarios de uso reales. La no estructuración trae consigo que los datos (los cuales están en formato en bruto) contengan anomalías, sesgos y ruido que perturban la detección de los aspectos generales que se quieren extraer de los datos. Otro de los aspectos que perturban notablemente la calidad de los resultados de clasificación, es el problema de los datasets que contienen una variedad significativa de muestras haciendo parte de las diferentes clases en las que se quiere clasificar el dataset. El que exista un número muy grande de muestras pertenecientes a una clase y por otro lado, un número bastante insignificante de muestras en otras, genera una perturbación importante en los resultados que tienden a sesgarse hacia las clases con muestras mayoritarias. Este problema, se conoce con el nombre de el problema de los datasets no balanceados o desequilibrados. Este Proyecto de Fin de Grado aborda el estudio y análisis de las técnicas existentes para abordar el problema de la clasificación de datasets desequilibrados. En este contexto, este Proyecto lleva a cabo un análisis exhaustivo de las técnicas más comunes a la hora de abordar este problema. Dicho análisis ofrece una perspectiva práctica sobre la caracterización de las técnicas analizadas en diferentes entornos de prueba para determinar qué técnicas ofrecen mejores resultados en función de las características del dataset. Para lograr este objetivo, este Proyecto incluye el diseño de una batería de experimentos cuya ejecución apoya, desde el punto de vista práctico, los resultados del estudio comparativo obtenido del análisis de las diferentes técnicas. En este contexto, se han podido extraer diversas conclusiones al respecto, derivadas de éstos resultados y de las métricas de calidad aplicadas sobre cada uno de los algoritmos estudiados. Finalmente, se exponen las reflexiones que se deducen de cada uno de los experimentos realizados tanto a nivel particular como general. Abstract: With the advent of Big Data, the problems to obtaining a reliable classification in unstructured datasets turns out to be an important impediment within the applicability of these algorithms in real use case scenarios. The non-structured data (which are in raw format) without a specific pre-tratament phase causes anomalies, bias and noise that disturb the detection of the general aspects that want to be extracted from the data. Another aspect that disturbs noticeably the quality of the classification results is the problem of datasets that contain a significant variety of samples being part of the different classes in which we want to classify the dataset. In particular, there is a very large number of sambles belonging to one class and, on the other hand, a fairly insignificant number of samples in other ones. It generates an important disturbance in the results causing bias towards the classes with the majority samples. This problem is a well-known named the imbalanced datasets problem. This Final Degree Project studies and analyzes the existing techniques to address the imbalanced dataset classification problem. In this context, this Project carries out an exhaustive analysis of the most common techniques for dealing with this problem. This analysis others a pragmatic perspective about the characterization of the analyzed techniques in different test environments to determine which of them other better results depending on the dataset characteristics. To achieve this goal, this Project includes a experiments battery whose execution supports, from a practical point of view, the results of the comparative study obtained from the analysis of the different techniques. In this context, some conclusions can be obtained on that subject, derived from the results and the obtained outcomes about quality measurements applied to each of the algorithms studied. Finally, the conclusions from the experiments are exposed both a particular and generalist point of view.

More information

Item ID: 52075
DC Identifier: http://oa.upm.es/52075/
OAI Identifier: oai:oa.upm.es:52075
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 07 Sep 2018 06:42
Last Modified: 12 Sep 2018 13:47
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM