Tratamiento de datos, estudio y comparación de algoritmos de Machine Learning aplicados a un conjunto de datos relacionado con las causas del fracaso/éxito del desarrollo de diversos proyectos

Collado Rojas, Pedro (2022). Tratamiento de datos, estudio y comparación de algoritmos de Machine Learning aplicados a un conjunto de datos relacionado con las causas del fracaso/éxito del desarrollo de diversos proyectos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Tratamiento de datos, estudio y comparación de algoritmos de Machine Learning aplicados a un conjunto de datos relacionado con las causas del fracaso/éxito del desarrollo de diversos proyectos
Author/s:
  • Collado Rojas, Pedro
Contributor/s:
  • Gómez Canaval, Sandra
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: March 2022
Subjects:
Freetext Keywords: Ciencia de los datos; Data Mining; Minería de datos; Árboles de decisión; Support Vector Machine
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB)

Abstract

Este proyecto se centra en la aplicación de técnicas de Machine Learning con el fin de servir de base de aprendizaje cuándo no se tiene conocimiento previo sobre éstas técnicas y algoritmos para extraer información relevante y de valor sobre un conjunto de datos de tipo Big Data. Parte de las técnicas utilizadas en este trabajo son técnicas clásicas tanto de Machine Learning como de Data Mining, lo que se ha considerado un buen punto de partida para entender los fundamentos de esta sub-área de la Ciencia de los Datos. Para una aplicación efectiva de estas técnicas, es necesario tener un cocimiento profundo de los conceptos teórico/prácticos asociados a estas técnicas. Dada la cantidad ingente de técnicas y documentación sobre su aplicación que existe en la literatura, algunas veces es difícil (sin experiencia previa) tener una idea clara sobre qué aplicar y por dónde empezar. Normalmente, para encontrar un algoritmo o técnica que se adapte o saque el mejor partido al conjunto de datos del que se dispone asociados al problema a resolver o situación a analizar, se necesita hacer una gran cantidad de pruebas previas con distintos algoritmos y configuraciones. Este trabajo pretende ser un cuaderno de bitácora de cómo y por dónde empezar a utilizar estas técnicas, a partir de un conjunto de datos público que recopila información sobre aspectos del fracaso/éxito de proyectos al cual se le aplica un conjunto de técnicas de Data Mining/Machine Learning para comparar los resultados. En concreto, en este trabajo se utilizan técnicas de clasificación supervisada como los Árboles de Decisión (Decision Tree) y Soporte de Máquinas Vectoriales (Support Vector Machine) pero se nombran otras y se extrae su aplicación a otras similares. Con estas técnicas, se analiza el conjunto de datos seleccionado y se establece el objetivo del proceso de extracción de conocimiento. A partir de este punto, se tratan los datos, se adaptan los algoritmos, se aplican sobre el conjunto de datos tras identificar una batería de experimentos para comprobar la idoneidad de los algoritmos seleccionados. Como conclusión, se podrá observar que para el conjunto de datos elegido, los algoritmos de árboles de decisión, dan mejores resultados que las Máquinas de Soporte Vectorial, tanto en tiempo como en rendimiento y calidad de la clasificación. Abstract: The present project focuses on the implementation of Machine Learning techniques with a view to act as a baseline, if no previous knowledge regarding these techniques to extract valued and relevant information from a Big Data dataset is found. Some of the techniques used in this paper are the conventional techniques, both Machine Learning and Data Mining techniques, which are considered a good start to understand the foundations of this sub-area of Data Science. For an effective implementation of these techniques, a deep understanding on both theoretical and practical principles is required. Due to the increasing number of literary publications on the field concerning this study, the task of deciding what works are important and which ones are not is arduous. The usual procedure to follow when there is the need of analysing an algorithm or finding the best way to take the most of the technique, the amount of research that is required is overwhelming. This procedure implies a lot of preliminary tests and detailed information accessed via algorithms and configurations. This project is understood as an approach to a logbook, which will cover how these techniques would be used with the purpose of applying a compound of Data Mining/Machine Learning to compare the results obtained on the investigation from a compilation of public information. Namely, all along this project, supervised classification techniques are used. For instance Decision Trees, Support Vector Machine among others. With this in mind, the compilation of selected data is analysed and then, the objective of the process is set. From that point onwards, a battery of experiments is implemented in order to verify the eligibility of the already selected algorithms. To conclude, the thesis that the Decision Tree Algorithms are more adequate to use and the results are better than the Support Vector Machines is confirmed. Not only saving time efficiently, but also the quality of the classification is better.

More information

Item ID: 70171
DC Identifier: https://oa.upm.es/70171/
OAI Identifier: oai:oa.upm.es:70171
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 01 Apr 2022 15:39
Last Modified: 01 Apr 2022 15:39
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM