Full text
![]() |
PDF
- Users in campus UPM only
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) |
![]() |
Archive (ZIP)
- Users in campus UPM only
Download (781B) |
Cachata Huapaya, Cristhian Alexis (2020). Predicción de la variedad del vino aplicando técnicas de Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.
Title: | Predicción de la variedad del vino aplicando técnicas de Machine Learning |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería de Computadores |
Date: | July 2020 |
Subjects: | |
Freetext Keywords: | Aprendizaje automático; Vino |
Faculty: | E.T.S.I. de Sistemas Informáticos (UPM) |
Department: | Sistemas Informáticos |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Users in campus UPM only
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) |
![]() |
Archive (ZIP)
- Users in campus UPM only
Download (781B) |
La clasificación de texto es una forma de extracción de información a partir de un escrito que permite catalogar el contenido del mismo en diversas clases. En este proyecto se presenta el desarrollo de un sistema que, usando técnicas de Machine Learning, permite la clasificación de distintas descripciones de vinos según su variedad. Dichas descripciones forman parte de las valoraciones de expertos procedentes de una página web de los Estados Unidos de América cuyos datos están disponibles en el sitio web Kaggle. El interés de este conjunto de datos radica entre otras cosas, en los comentarios realizados sobre el vino respecto a la variedad de uva asociada a cada una de las descripciones. En particular, este Proyecto realiza un proceso de pretratamiento de un conjunto de textos iniciales que consiste en la eliminación de palabras en las pescripciones que coincidan con la variedad, así como también la eliminación de cualquier signo ortográfico. A continuación, se construyen diversos modelos, se evalúan y se optimizan para posteriormente seleccionar el que obtenga los mejores resultados a la luz de los valores exhibidos para las métricas de calidad aplicadas. Cabe la pena resaltar que, aunque se han encontrado diversos problemas, entre los que se encuentran la poca cantidad de datos que se dispone y el gran desbalanceo entre las distintas clases, el modelo seleccionado consiguió predecir correctamente el 75% de las muestras de comentarios sobre su calidad. Finalmente, se considera que los resultados obtenidos por este Proyecto son interesantes para trasladar el conocimiento adquirido y el modelo inicial a otros conjuntos de datos que hayan sido correctamente preprocesados. Igualmente sería interesante trasladar el modelo a escenarios de uso similares, como por ejemplo a datasets con información de la cata de otros productos como el té o el café.
Abstract:
Text classification is a way of information extraction from a document that allows its content to be cataloged in various classes. This project presents the development of a system that, using Machine Learning techniques, allows the classification of different wine descriptions according to their variety. These descriptions are part of the evaluations of experts from a website in the United States of America whose data are available on the Kaggle website. The interest of this data set lies, among other things, in the comments made on the wine with regard to the grape variety associated with each of the descriptions. Specially, this Project performs a pre-treatment process of a set of original texts consisting of the removal of words in the descriptions that match the variety, as well as the removal of any spelling signs. Then, various models are constructed, evaluated, optimized, and selected to obtain the best results according to the values displayed for the applied quality metrics. It is worth noting that, although several problems were found, including the small amount of data available and the large imbalance between the different classes, the selected model managed to correctly predict 75% of the sample comments on its quality. Finally, it is considered that the results obtained by this Project are interesting to transfer the knowledge acquired and the initial model to other data sets that have been correctly pre-processed. It would also be interesting to transfer the model to similar use scenarios, such as datasets with tasting information on other products such as tea or coffee.
Item ID: | 64362 |
---|---|
DC Identifier: | https://oa.upm.es/64362/ |
OAI Identifier: | oai:oa.upm.es:64362 |
Deposited by: | Biblioteca Universitaria Campus Sur |
Deposited on: | 05 Oct 2020 11:22 |
Last Modified: | 05 Oct 2020 11:33 |