Creación de metamodelos para la identificación de sentimientos en Twitter

Docasal García, Alejandro (2020). Creación de metamodelos para la identificación de sentimientos en Twitter. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Creación de metamodelos para la identificación de sentimientos en Twitter
Author/s:
  • Docasal García, Alejandro
Contributor/s:
  • Rodríguez González, Alejandro
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_ALEJANDRO_DOCASAL_GARCÍA.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (4MB) | Preview

Abstract

En la actualidad, se puede conseguir más cantidad de información de los consumidores de un producto y a una velocidad más rápida en las redes sociales que preguntándoles directamente uno por uno. La información que se puede extraer de las redes sociales no solamente es interesante para medir la efectividad de un producto, si no para analizar en general los sentimientos de las personas, y, por consiguiente, próximos movimientos de estas. Por este motivo, es interesante indagar en las técnicas de análisis de sentimientos, las cuales consiste en identificar la polaridad de los textos escritos por personas para intentar entender el sentimiento que hay tras estos. El objetivo de este proyecto fue el de la creación de modelos a través del aprendizaje automático con el fin de poder identificar si un texto que se le pasa de entrada al modelo, tratando el tema de algunas enfermedades y vacunas, habla de una manera negativa de estos temas o si habla de una manera no negativa, es decir, de manera positiva o neutra. Para el desempeño de esta labor, fue necesario la extracción de una gran cantidad de textos que versaran sobre los temas de interés, se decidió extraer estos textos de la red social de Twitter, debido a la gran cantidad de datos que esta red social aporta. Una vez se tenían estos textos, se debía de identificar la polaridad de estos haciendo uso de distintas herramientas comerciales, concretamente tres, con el fin de conseguir un gran Dataset formado por una gran cantidad de textos clasificados por estas herramientas comerciales de análisis de sentimientos. A continuación, se tuvo que adaptar el resultado de todas las herramientas a una misma magnitud, ya que cada uno expresaba los resultados de una manera distinta. Finalmente, se obtuvo un gran Dataset formado por los textos analizados, los resultados de las herramientas comerciales para cada texto, y el resultado adaptado para cada herramienta comercial. Antes de poder utilizar el Dataset para la creación de modelos, era necesario tener una valoración de una persona real y profesional en la temática de los textos para cada texto, es por ello por lo que se seleccionaron a cinco profesionales en la materia para que sirviesen de evaluadores de los textos, se les fue facilitando diversos textos para que analizaran y dieran su veredicto entre un texto negativo o no negativo. Una vez realizado todo este trabajo, se obtuvo un Dataset final con una gran cantidad de textos evaluados por cinco profesionales y por las herramientas comerciales de análisis de sentimientos. Sin embargo, este Dataset tenía un grado muy alto de desbalanceo y, por tanto, fue necesario realizar un proceso de balanceo de este mediante técnicas de Downsampling. Finalmente, se consiguen varios Dataset finales balanceados con los que poder crear modelos. La siguiente fase, fue la de creación de modelos, para esta labor se hizo uso de la aplicación WEKA que ofrece una gran cantidad de algoritmos de aprendizaje automático supervisado para la problemática que supone la clasificación, a estos algoritmos se les pasa como entrada los datos de nuestro Dataset, y la clase de salida de estos algoritmos debe ii ser la que decidieron los evaluadores, en su mayoría, para ese texto. Estos datos nos sirvieron para el entrenamiento de los modelos, obteniendo finalmente diversos modelos con distintos porcentajes de precisión que se tuvieron que evaluar, con el fin de concretar que modelos son válidos y cuáles no lo son.---ABSTRACT---Nowadays, more information can be obtained from consumers of a product and at a faster speed on social networks than by asking them directly one by one. The information that can be extracted from social networks is not only interesting to measure the effectiveness of a product, but to analyze in general the feelings of people, and therefore, next movements of these. For this reason, it is interesting to investigate the techniques of sentiment analysis, which consists of identifying the polarity of texts written by people in order to try to understand the feeling behind them. The objective of this project was to create models through machine learning in order to identify whether a text that is passed on to the model, dealing with the subject of certain diseases and vaccines, speaks in a negative way of these subjects or whether it speaks in a nonnegative way, that is, in a positive or neutral way. In order to carry out this task, it was necessary to extract a large amount of texts dealing with the topics of interest, it was decided to extract these texts from the social network Twitter, due to the large amount of data that this social network provides. Once these texts were available, the polarity of these had to be identified using different commercial tools, specifically three, in order to obtain a large Dataset formed by a large amount of texts classified by these commercial tools of sentiment analysis. Then, the result of all the tools had to be adapted to the same magnitude, since each one expressed the results in a different way. Finally, a large Dataset was obtained, consisting of the analysed texts, the results of the commercial tools for each text, and the result adapted for each commercial tool. Before being able to use the Dataset for the creation of models, it was necessary to have a real and professional evaluation on the subject matter of the texts for each text. For this reason, five professionals in the field were selected to serve as evaluators of the texts, and they were provided with various texts to analyze and give their verdict between a negative or non-negative text. Once all this work was done, a final Dataset was obtained with a large number of texts evaluated by five professionals and by the commercial tools of sentiment analysis. However, this Dataset had a very high degree of unbalance and, therefore, it was necessary to carry out a process of balancing it by means of Downsampling techniques. Finally, several final balanced Datasets are obtained with which to create models. The next phase was the creation of models. For this work, the WEKA application was used, which offers a large number of supervised machine learning algorithms for the classification problem, these algorithms are passed as input to our Dataset data, and the output class of these algorithms must be the one decided by the evaluators, mostly for that text. These data were used to train the models, finally obtaining several models with different percentages of accuracy that had to be evaluated, in order to specify which models are valid and which are not.

More information

Item ID: 62854
DC Identifier: https://oa.upm.es/62854/
OAI Identifier: oai:oa.upm.es:62854
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 01 Jul 2020 08:40
Last Modified: 01 Jul 2020 08:40
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM