Predicción de la variedad del vino aplicando técnicas de Machine Learning

Cachata Huapaya, Cristhian Alexis (2020). Predicción de la variedad del vino aplicando técnicas de Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Predicción de la variedad del vino aplicando técnicas de Machine Learning
Author/s:
  • Cachata Huapaya, Cristhian Alexis
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería de Computadores
Date: July 2020
Subjects:
Freetext Keywords: Aprendizaje automático; Vino
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_CRISTHIAN_ALEXIS_CACHATA_HUAPAYA.pdf] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)
[thumbnail of TFG_CRISTHIAN_ALEXIS_CACHATA_HUAPAYA_ANEXOS.zip] Archive (ZIP) - Users in campus UPM only
Download (781B)

Abstract

La clasificación de texto es una forma de extracción de información a partir de un escrito que permite catalogar el contenido del mismo en diversas clases. En este proyecto se presenta el desarrollo de un sistema que, usando técnicas de Machine Learning, permite la clasificación de distintas descripciones de vinos según su variedad. Dichas descripciones forman parte de las valoraciones de expertos procedentes de una página web de los Estados Unidos de América cuyos datos están disponibles en el sitio web Kaggle. El interés de este conjunto de datos radica entre otras cosas, en los comentarios realizados sobre el vino respecto a la variedad de uva asociada a cada una de las descripciones. En particular, este Proyecto realiza un proceso de pretratamiento de un conjunto de textos iniciales que consiste en la eliminación de palabras en las pescripciones que coincidan con la variedad, así como también la eliminación de cualquier signo ortográfico. A continuación, se construyen diversos modelos, se evalúan y se optimizan para posteriormente seleccionar el que obtenga los mejores resultados a la luz de los valores exhibidos para las métricas de calidad aplicadas. Cabe la pena resaltar que, aunque se han encontrado diversos problemas, entre los que se encuentran la poca cantidad de datos que se dispone y el gran desbalanceo entre las distintas clases, el modelo seleccionado consiguió predecir correctamente el 75% de las muestras de comentarios sobre su calidad. Finalmente, se considera que los resultados obtenidos por este Proyecto son interesantes para trasladar el conocimiento adquirido y el modelo inicial a otros conjuntos de datos que hayan sido correctamente preprocesados. Igualmente sería interesante trasladar el modelo a escenarios de uso similares, como por ejemplo a datasets con información de la cata de otros productos como el té o el café.
Abstract:
Text classification is a way of information extraction from a document that allows its content to be cataloged in various classes. This project presents the development of a system that, using Machine Learning techniques, allows the classification of different wine descriptions according to their variety. These descriptions are part of the evaluations of experts from a website in the United States of America whose data are available on the Kaggle website. The interest of this data set lies, among other things, in the comments made on the wine with regard to the grape variety associated with each of the descriptions. Specially, this Project performs a pre-treatment process of a set of original texts consisting of the removal of words in the descriptions that match the variety, as well as the removal of any spelling signs. Then, various models are constructed, evaluated, optimized, and selected to obtain the best results according to the values displayed for the applied quality metrics. It is worth noting that, although several problems were found, including the small amount of data available and the large imbalance between the different classes, the selected model managed to correctly predict 75% of the sample comments on its quality. Finally, it is considered that the results obtained by this Project are interesting to transfer the knowledge acquired and the initial model to other data sets that have been correctly pre-processed. It would also be interesting to transfer the model to similar use scenarios, such as datasets with tasting information on other products such as tea or coffee.

More information

Item ID: 64362
DC Identifier: https://oa.upm.es/64362/
OAI Identifier: oai:oa.upm.es:64362
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 05 Oct 2020 11:22
Last Modified: 05 Oct 2020 11:33
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM