Datación automática de poemas mediante técnicas de aprendizaje automático

Cànaves Alberti, Mateu (2020). Datación automática de poemas mediante técnicas de aprendizaje automático. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Datación automática de poemas mediante técnicas de aprendizaje automático
Author/s:
  • Cànaves Alberti, Mateu
Contributor/s:
  • Ortega Requena, Fernando
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: 2020
Subjects:
Freetext Keywords: Aprendizaje automático
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (9MB)

Abstract

Hoy en día se encuentra disponible una gran cantidad de información a través de distintos medios electrónicos, en bibliotecas digitales, en colecciones de documentos o en Internet. La necesidad de acceder a esta información para su extracción y análisis, ha llevado a la creación de diversas formas de manipulación de información, entre las que se encuentra la clasificación de textos. Sin embargo, el crecimiento constante de información hace que la tarea de clasificar documentos de forma manual sea costosa y que requiera de mucho tiempo, por lo que ha surgido el interés por realizar la clasificación de manera automática. Este proyecto se ha desarrollado teniendo como objetivo principal estudiar y aprender técnicas de aprendizaje automático mediante el desarrollo de un sistema de clasificación automática de textos, concretamente datación de poemas. Para lograr este objetivo primero se ha estudiado e indagado sobre la teoría existente, para una vez obtenido los conocimientos necesarios ponerlos en práctica. La metodología seguida para la realización de la parte práctica ha consistido en los pasos comunes de todo proyecto de aprendizaje automático. Siendo estos, la obtención de datos, el preprocesamiento de los mismos, el entrenamiento del modelo y finalmente, la evaluación de los resultados. No se ha realizado la explotación del modelo resultante por quedar fuera del objetivo de este proyecto. Para la recopilación de datos, en nuestro caso poemas, se ha usado como fuente la página de poemas www.poetryfoundation.org y mediante técnicas de scraping se ha obtenido un conjunto de entrenamiento formado por más de 10000 poemas. Una vez recopilado el conjunto de datos, han sido tratados con técnicas de preprocesamiento de datos y el modelo bolsa de palabras para que pudieran ser interpretados por los diferentes algoritmos y así evaluar sus resultados. Concretamente se han evaluado los modelos LinearSVC, MultinomialNB, SGDClassifier y finalmente KNeighborsClassifier. Finalizado la evaluación se ha comprobado como los modelos generados a partir de LinearSVC y MultinomialNB han sido los que mejor resultado han dado. El modelo no ha generado tan buenos resultados como se podría esperar de alguien con conocimientos amplios en la área pero se pueden considerar como suficiente. Por tanto se ha podido cumplir con los objetivos previsto del proyecto. Abstract: Nowadays, a great amount of information is available through electronic mediums, such as digital libraries, in document pools or simply on the Internet. The necessity of accessing this information for its extraction and analysis has led to the creation of different forms of processing it, among others the text classification. However, the constant growth of information makes the task of classifying documents very expensive and it requires a lot of time, hence the interest of classifying it automatically. This project was carried out with the main objective of studying and understanding machine learning techniques through the development of an automatic text classification system, specifically the dating of poems. In order to achieve this aim, firstly the existing theory on which this project is based was examined and investigated so that, once the necessary knowledge was acquired, it was put into practice. For this purpose, the methodology used in the practical part was the common steps of every machine learning project. Being these, the obtaining of data, the pre-processing of the same, the training of the model to finally evaluate the results. No exploitation of the resulting model was undertaken as it was considered to be beyond the objective of this project. For the data collection, in this case poems, the poems page www.poetryfoundation.org was used as source. By using scraping techniques, a training set of more than 10,000 poems was obtained. Once the data set was collected, data pre-processing techniques and the bag-of-words model were used to prepare these data in order to be interpreted by different algorithms so as to evaluate their results. Specifically, the models LinearSVC, MultinomialNB, SGDClassifier and finally KNeighborsClassifier were assessed. Finally, the models generated from LinearSVC and MultinomialNB proved to be the best-performing ones.The model did not generate as good results as you would expect from someone with extensive knowledge in the area of machine learning, still the ones obtained can be considered sufficient. Accordingly, the planned objectives of the project were met.

More information

Item ID: 64225
DC Identifier: http://oa.upm.es/64225/
OAI Identifier: oai:oa.upm.es:64225
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 01 Oct 2020 07:29
Last Modified: 01 Oct 2020 07:29
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM