Estudio de ideología política en redes sociales a través de Machine Learning

López Medel, Berta (2019). Estudio de ideología política en redes sociales a través de Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Estudio de ideología política en redes sociales a través de Machine Learning
Author/s:
  • López Medel, Berta
Contributor/s:
  • Ortega Requena, Fernando
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: June 2019
Subjects:
Freetext Keywords: Machine Learning; Desarrollo web
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview
[img] Archive (ZIP) - Users in campus UPM only
Download (6MB)

Abstract

El objetivo de este proyecto, es el poder predecir la ideología política de usuarios de Twitter a partir de sus tweets. Esto se ha logrado mediante una aplicación en Python que utiliza el concepto de aprendizaje automático y, más concretamente, el algoritmo de Naive Bayes, para predecir qué partido español tiene una ideología más afín a la de un usuario dado. En cuanto al impacto que tendrá esta aplicación sobre la sociedad encontramos aspectos positivos y negativos. Sin embargo, destacan las ventajas en mayor medida, por encima de las desventajas. Por una parte, esta aplicación, usada forma éticamente correcta, y con propósito didáctico, podría servir para neutralizar la información, puesto que se podrán seleccionar distintos usuarios de Twitter con diferentes ideas que traten el mismo tema, donde se compararían entre sí y se eliminarían los rasgos políticos o ideológicos de cada una de ellas, (gracias a la aplicación de manera ágil), juntando toda aquella información que sea neutral y objetiva para aportar y facilitar a los consumidores o al público en general información imparcial y neutral. Además, todas las personas que deseen investigar de una forma equitativa a distintos usuarios de Twitter acerca de temas relacionados con las ideologías políticas, podrán hacerlo de una forma fácil, rápida y equitativa. En consecuencia, ayudará a todas las personas que quieran realizar estudios e investigaciones sobre los componentes de una ideología específica, sin tener que hacerlo mediante entrevistas o encuestas, mucho más laborioso y que lleva más tiempo, con esto, lo podrán hacer directamente desde Twitter, seleccionando a los usuarios de la ideología que les interese. En general, el aspecto positivo y que tendría mayor impacto en la sociedad, sería usar esta aplicación para comparar las similitudes que hay entre unos usuarios y otros, ya sea con opiniones contrarias, aunque sea mínimo el porcentaje, se puede ver y comprobar como muchos de ellos comparten mismas ideas en mayor o menor medida. Por último, sirve para investigar y analizar a la sociedad, desde Twitter, con el fin de hacerlo de manera equitativa con las ideologías, eligiendo dos usuarios con ideas completamente opuestas, comparándolas y estudiando que les diferencia a unos de otros o cuáles son sus semejanzas. Por otra parte, si se usa de forma discriminatoria o beneficiosa para dichas empresas o simplemente como curiosidad para las relaciones entre personas podría generar discusiones y problemáticas por el simple hecho de ser de una ideología u otra. En cuanto a la importancia del machine learning, los algoritmos básicos para enseñar a una máquina a completar tareas y clasificar como un humano datan de varias décadas. La diferencia entre ahora y cuando los modelos se inventaron por primera vez es que cuanta más información se ingresa en los algoritmos, más precisos se vuelven. Las últimas décadas han visto una escalabilidad masiva de datos e información, permitiendo predicciones mucho más precisas de lo que alguna vez fue posible en la larga historia del aprendizaje automático. Las nuevas técnicas en este campo, que en su mayoría involucran la combinación de piezas que ya existían en el pasado, han permitido un esfuerzo de investigación extraordinario. Esto no ha sido el resultado de un gran avance, sino de computadoras mucho más rápidas y miles de investigadores que contribuyen con mejoras incrementales. Esto ha permitido a los investigadores expandir lo que es posible, hasta el punto de que las máquinas están superando a los humanos en tareas difíciles, pero estrechamente definidas, como reconocer rostros. El aprendizaje automático tendrá enormes efectos en la economía y en la vida en general. Las tareas de trabajo e industrias completas pueden ser automatizadas y el mercado laboral cambiará para siempre. El funcionamiento de esta aplicación de aprendizaje automático es el siguiente: se ha llevado a cabo una recolecta de tweets de cuentas oficiales de los cuatro partidos políticos más importantes de España (Partido Popular, Partido Socialista Obrero Español, Ciudadanos y Podemos), con estos tweets se han entrenado distintos modelos, para ver cuál es más acertado, siendo el elegido Naive Bayes con distribución de Bernoulli. Este modelo se explota posteriormente mediante una aplicación web, en la que se introduce el usuario de Twitter del que quieres predecir su ideología política y se obtiene un gráfico donde muestra la predicción del modelo de la ideología política para ese usuario. Abstract: The objective of this project is to be able to predict the political ideology of Twitter users based on their tweets. This has been achieved through an application in Python that uses the concept of machine learning and, more specifically, the Naive Bayes algorithm, to predict which Spanish party has an ideology more akin to that of a given user. Regarding the impact that this application will have on society, we find positive and negative aspects. However, the advantages stand out to a greater extent, over and above the disadvantages. On the one hand, this application, used in an ethical manner and with a didactic purpose, could serve to neutralize the information, since it will be possible to select different Twitter users with different ideas that deal with the same topic, then, they would be compared with each other and eliminated. The political or ideological features of each of them, (due to the application's ability to simplify and speed up polls), gathers all that information that is neutral and objective to provide consumers or the general public with impartial and neutral information. In addition, all people who want to investigate different Twitter users about issues related to political ideologies in an equitable way, can do so easily, quickly and fairly. Consequently, it will help all people who want to study and research on the components of a specific ideology, without having to do it through interviews or surveys, much more laborious and time-consuming with this, they can do it directly from Twitter, selecting the users of the ideology that interests them. In general, the positive aspect that would have the greatest impact on society, would be to use this application to compare the similarities between some users and others, use this application to compare the similarities between some users and others with contrary opinions, even if the percentage is minimal. This way, we can see and verify how many of them share the same ideas to a greater or lesser extent.t. Finally, it serves to equitably investigate and analyze society's ideologies, from Twitter, choosing two users with completely opposite ideas, comparing them and studying what differentiates them from each other or what are their similarities. On the other hand, if it is used in a discriminatory or beneficial way for these companies or simply as a curiosity for relations between people, it could generate arguments and problems for the simple fact of being of one ideology or another. Regarding the importance of machine learning, the basic algorithms to teach a machine to complete tasks and classify as a human date from several decades. The difference between now and when the models were invented for the first time is that the more information is entered into the algorithms, the more accurate they become. The last decades have seen a massive scalability of data and information, allowing much more accurate predictions of what was once possible in the long history of machine learning. The new techniques in this field, which mostly involve the combination of pieces that already existed in the past, have allowed an extraordinary research effort. This has not been the result of a breakthrough, but much faster computers and thousands of researchers who contribute incremental improvements. This has allowed researchers to expand what is possible, to the point that machines are overtaking humans in difficult but narrowly defined tasks, such as recognizing faces. Machine learning will have enormous effects on the economy and life in general. The work tasks and complete industries can be automated, and the labor market will change forever. The operation of this application is as follows: a collection of tweets of official accounts of the four most important political parties in Spain has been carried out (Partido Popular, Partido Socialista Obrero Español, Ciudadanos and Podemos). Different models have been trained with these tweets to see which is more successful, being the chosen model Naive Bayes with Bernoulli distribution. This model is later exploited through a web application, in which the Twitter user from which you want to predict the political ideology is introduced and a graph is obtained showing the prediction of the political ideology model for that user.

More information

Item ID: 55714
DC Identifier: http://oa.upm.es/55714/
OAI Identifier: oai:oa.upm.es:55714
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 15 Jul 2019 08:15
Last Modified: 15 Jul 2019 08:15
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM