Asignación de características a perfiles de cuentas en Twitter basándose en su actividad

Cuenca Aprell, Pablo Alfonso (2017). Asignación de características a perfiles de cuentas en Twitter basándose en su actividad. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Asignación de características a perfiles de cuentas en Twitter basándose en su actividad
Author/s:
  • Cuenca Aprell, Pablo Alfonso
Contributor/s:
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: July 2017
Subjects:
Freetext Keywords: bot, Machine Learning Algorithms,cyborg,matriz de confusión,trending topics
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFG_PABLO_ALFONSO_CUENCA_APRELL.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

Las redes sociales, y más concretamente Twitter, se han convertido en un lugar donde compartir opiniones, información, mantener discusiones… y con ellas han ido creciendo también el número de perfiles falsos que tratan de obstaculizar, falsear, difamar u obtener un rédito económico. Además, la sofisticación de este tipo de cuentas es cada vez mayor y ya no son los perfiles típicos que a simple vista se pueden distinguir de las verdaderas. El camuflaje es en muchas ocasiones casi perfecto, hasta el punto de pasar totalmente inadvertidas. Ante todo esto, desde distintos ámbitos de la docencia y la investigación se está llevando a cabo estudios para mejorar la identificación de esas cuentas de modo que supongan un problema de menor grado. Pese a los esfuerzos que se están realizando el problema sigue estando presente, y la utilización por parte de empresas, partidos políticos y organizaciones de este tipo de perfiles no hacen más que aumentar este problema. Además, se juega en contra por el hecho de la falta de información de los usuarios de Twitter al no tener en consideración que la información que les llega pueda ser perjudicial para ellos. Los objetivos que se persiguen con el trabajo son mostrar cómo funcionan algunos de los métodos de detección de cuentas tipo bot, explicar cuáles son sus características e incidir en las características de las cuentas que permiten caracterizar a una cuenta como bot. Además, se busca que el lector entienda y reflexione sobre los problemas que conlleva la existencia de este tipo de cuentas y que aprenda a utilizar herramientas y métodos para detectarlas. Con el fin de realizar una clasificación satisfactoria se ha creado un conjunto de datos formado por usuarios de tipo bot y otros humanos. Para hacerlo se han analizado todas y cada una de las cuentas y se han creado ciertos parámetros ilustrativo del comportamiento de cada una de ellas. Se ha pretendido que el conjunto sea lo más homogéneo posible y que el número de cuentas de ambos tipos sea similar, para evitar que la probabilidad a priori introduzca sesgo en la labor de los clasificadores.
Para conocer si las variables del conjunto de datos son las correctas o si por el contrario están muy correlacionadas entre ellas y no son de gran utilidad, se ha realizado un procesado de los datos en los que se incluye un Análisis de Componentes Principales y por mapas auto-organizados (no lineales). Estos métodos permiten una representación en 2 dimensiones y ver si existe de esta manera una división clara entre los dos tipos de cuentas. En concreto los mapas no lineales representan la proyección en 2 dimensiones de las distancias que hay entre los perfiles analizados
Los métodos elegidos son Machine Learning Algorithms (SVM, Random Forest, Árboles de decisión y el método bayesiano) que se han ejecutado en el programa estadístico R y que ayuda a trabajar con facilidad permitiendo mostrar, manipular y comparar los resultados obtenidos.El primero de ellos, SVM, realiza la clasificación buscando una función lineal (hiperplano) que separe las entidades de dos o más clases. Por otro lado, los árboles de decisión son un tipo de algoritmo que va clasificando desde los parámetros más importantes hasta los de menor peso. Por otra parte Random Forest, hace múltiples árboles de decisión teniendo en cuenta multitud de combinaciones. En función de lo que la mayoría de árboles de decisión determine, clasifica la entidad en uno u otro tipo. Para finalizar, el método bayesiano realiza una clasificación en base a cada parámetro por separado poniendo en común todos los resultados.

More information

Item ID: 48835
DC Identifier: https://oa.upm.es/48835/
OAI Identifier: oai:oa.upm.es:48835
Deposited by: Biblioteca ETSI Industriales
Deposited on: 20 Dec 2017 14:48
Last Modified: 25 Apr 2018 14:27
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM