A homophily-based rumor propagation model in social networks = Propagación de rumores en redes sociales basado en homofilia

Barrios Lara, José Max (2020). A homophily-based rumor propagation model in social networks = Propagación de rumores en redes sociales basado en homofilia. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: A homophily-based rumor propagation model in social networks = Propagación de rumores en redes sociales basado en homofilia
Author/s:
  • Barrios Lara, José Max
Contributor/s:
  • Serrano Fernández, Emilio
  • Bajo Pérez, Javier
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

En la actualidad la propagación de rumores en redes sociales, es un fenómeno que crece continuamente sobre todo por el crecimiento exponencial que surge todos los días gracias a la tecnología, y que afecta algunas veces de manera positiva y otras de maneras positivas a personas o grupos de personas con todo tipo de características en la sociedad. Este trabajo de investigación tiene como fin poner en discusión si estos grupos de personas tienen características similares entre ellos y distintas con otros grupos, y como se esparcen los rumores en estos grupos con distintas características. La metodología utilizada para responder la pregunta formulada en la hipótesis fue tomar dos conjuntos de datos, uno con aparentes noticias falsas de distintas fuentes y otro con aparentes noticias verdaderas con distintas fuentes, realizarle un análisis exploratorio y unirlos. Luego se decidió dividir el trabajo en tres etapas, la primera consistió en corroborar que las noticias falsas correspondiesen realmente a noticias falsas y pudiesen ser separadas de las noticias verdaderas. Luego de una limpieza de datos, esto se logró gracias a la técnica de procesamiento de lenguaje natural Word2vec para extraer los atributos más importantes de nuestros textos de noticias, vectorizar las palabras de nuestros textos, y producir Word embedding o incrustación de palabras. Para luego ajustar un modelo de red neuronal recurrente en el cuál clasificamos nuestras noticias en falsas y verdaderas con éxito, por lo que se decidió utilizar el conjunto de datos de noticias falsas, que llamaremos rumores. En la segunda etapa se buscaba identificar homofilia o similitud de características de individuos en nuestros datos, por lo que se tomaron los rumores de noticias de política para encontrar sesgos y orientación política. Esta orientación política por la naturaleza de nuestro conjunto de datos, corresponde a los partidos Republicano y Demócrata de los Estados Unidos de América. Luego de una limpieza de datos, esto se logró gracias a la técnica de procesamiento de lenguaje de frecuencia de términos- frecuencia inversa de documentos en el cual la importancia de término va en aumento por la cantidad de veces que aparece en un documento, y se compara su frecuencia en el corpus. Se extrajeron los atributos más importantes y se identificaron tres grupos en nuestros datos gracias al algoritmo de aprendizaje no supervisado. Para visualizarlo se realizó un gráfico de dispersión con ayuda del análisis de componentes principales para reducir dimensionalidad ya que contábamos con una gran cantidad de atributos, para luego extraer las características más importantes para cada clúster y se determinó que existen tres grupos políticos en nuestro conjunto de datos, uno Demócrata y Republicano y otro neutro. Por lo que determinamos la homofilia de inclinación política de nuestros datos. Al final se procedió a construir el modelo epidemiológico SIR (susceptibles, infectados, recuperados) para la población global, y para los tres grupos encontrados, obteniendo distintos resultados para cada uno de ellos, lo que nos indicó a que esta información estaba oculta dentro de nuestros datos, y ha sido de gran provecho dividir nuestra población total en poblaciones con características similares. Este trabajo no presenta una innovación respecto al estado del arte, sino la aplicación de técnicas existentes en ciencia de datos para solucionar un problema. Los experimentos presentados en este trabajo se encuentran disponibles en el siguiente repositorio: https://github.com/jmbarrios27/RUMORPROPAGATION-ON-SOCIAL-NETWORKS-BASED-ON-HOMOPHILY---ABSTRACT---Currently, the spread of rumors on social networks is a phenomenon that grows continuously, especially due to the exponential growth that arises every day thanks to technology, and that sometimes affects individuals or groups positively and sometimes positively of people with all kinds of characteristics in society. The purpose of this research work is to discuss whether these groups of people have similar characteristics among themselves and different with other groups, and how rumors are spread in these groups with different characteristics. The methodology used to answer the question asked in the hypothesis was to take two sets of data, one with apparent false news from different sources and the other with apparent true news from different sources, perform an exploratory analysis and merge them. Then it was decided to divide the work into three stages, the first one was to corroborate that the false news really corresponded to false news and could be separated from the true news. After data cleansing, this was accomplished thanks to the Word2vec natural language processing technique to extract the most important attributes from our news texts, vectorize the words in our texts, and produce Word embedding. To then fit a recurring neural network model in which we successfully classified our news as false and true, so it was decided to use the false news dataset, which we will call rumors. In the second stage, we sought to identify homophily or similarity of characteristics of individuals in our data, so rumors of political news were taken to find biases and political orientation. This political orientation, due to the nature of our data set, corresponds to the Republican and Democratic parties of the United States of America. After a data cleansing, this was achieved thanks to the term frequency-inverse document frequency language processing technique in which the importance of the term is increased by the number of times it appears in a document, and Compare their frequency in the corpus. The most important attributes were extracted and three groups were identified in our data thanks to unsupervised learning algorithms. To visualize it, a scatter graph was made with the help of the principal component analysis to reduce dimensionality since we had a large number of attributes, to then extract the most important characteristics for each cluster and it was determined that there are three political groups in our set of data, one Democrat and Republican and another neutral. So, we determined the Homophily of political inclination of our data. In the end, was proceeded to build the SIR model for the global population, and for the three groups found, obtaining different results for each of them, which indicated that this information was hidden within our data, and has been of great importance. It is useful to divide our total population into populations with similar characteristics. This work does not present an innovation regarding the state of the art, but the application of existing techniques in data science to solve a problem. The experiments presented in this work are available in the following repository: https://github.com/jmbarrios27/RUMOR-PROPAGATION-ON-SOCIALNETWORKS-BASED-ON-HOMOPHILY

More information

Item ID: 63645
DC Identifier: http://oa.upm.es/63645/
OAI Identifier: oai:oa.upm.es:63645
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 08 Sep 2020 08:05
Last Modified: 08 Sep 2020 08:05
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM