Asignación de características a perfiles de cuentas en Twitter basándose en su actividad

Cuenca Aprell, Pablo Alfonso (2017). Asignación de características a perfiles de cuentas en Twitter basándose en su actividad. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Descripción

Título: Asignación de características a perfiles de cuentas en Twitter basándose en su actividad
Autor/es:
  • Cuenca Aprell, Pablo Alfonso
Director/es:
  • Ordieres-Meré, Joaquín
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería en Tecnologías Industriales
Fecha: Julio 2017
Materias:
Palabras Clave Informales: bot, Machine Learning Algorithms,cyborg,matriz de confusión,trending topics
Escuela: E.T.S.I. Industriales (UPM)
Departamento: Ingeniería de Organización, Administración de Empresas y Estadística
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB) | Vista Previa

Resumen

Las redes sociales, y más concretamente Twitter, se han convertido en un lugar donde compartir opiniones, información, mantener discusiones… y con ellas han ido creciendo también el número de perfiles falsos que tratan de obstaculizar, falsear, difamar u obtener un rédito económico. Además, la sofisticación de este tipo de cuentas es cada vez mayor y ya no son los perfiles típicos que a simple vista se pueden distinguir de las verdaderas. El camuflaje es en muchas ocasiones casi perfecto, hasta el punto de pasar totalmente inadvertidas. Ante todo esto, desde distintos ámbitos de la docencia y la investigación se está llevando a cabo estudios para mejorar la identificación de esas cuentas de modo que supongan un problema de menor grado. Pese a los esfuerzos que se están realizando el problema sigue estando presente, y la utilización por parte de empresas, partidos políticos y organizaciones de este tipo de perfiles no hacen más que aumentar este problema. Además, se juega en contra por el hecho de la falta de información de los usuarios de Twitter al no tener en consideración que la información que les llega pueda ser perjudicial para ellos. Los objetivos que se persiguen con el trabajo son mostrar cómo funcionan algunos de los métodos de detección de cuentas tipo bot, explicar cuáles son sus características e incidir en las características de las cuentas que permiten caracterizar a una cuenta como bot. Además, se busca que el lector entienda y reflexione sobre los problemas que conlleva la existencia de este tipo de cuentas y que aprenda a utilizar herramientas y métodos para detectarlas. Con el fin de realizar una clasificación satisfactoria se ha creado un conjunto de datos formado por usuarios de tipo bot y otros humanos. Para hacerlo se han analizado todas y cada una de las cuentas y se han creado ciertos parámetros ilustrativo del comportamiento de cada una de ellas. Se ha pretendido que el conjunto sea lo más homogéneo posible y que el número de cuentas de ambos tipos sea similar, para evitar que la probabilidad a priori introduzca sesgo en la labor de los clasificadores. Para conocer si las variables del conjunto de datos son las correctas o si por el contrario están muy correlacionadas entre ellas y no son de gran utilidad, se ha realizado un procesado de los datos en los que se incluye un Análisis de Componentes Principales y por mapas auto-organizados (no lineales). Estos métodos permiten una representación en 2 dimensiones y ver si existe de esta manera una división clara entre los dos tipos de cuentas. En concreto los mapas no lineales representan la proyección en 2 dimensiones de las distancias que hay entre los perfiles analizados Los métodos elegidos son Machine Learning Algorithms (SVM, Random Forest, Árboles de decisión y el método bayesiano) que se han ejecutado en el programa estadístico R y que ayuda a trabajar con facilidad permitiendo mostrar, manipular y comparar los resultados obtenidos.El primero de ellos, SVM, realiza la clasificación buscando una función lineal (hiperplano) que separe las entidades de dos o más clases. Por otro lado, los árboles de decisión son un tipo de algoritmo que va clasificando desde los parámetros más importantes hasta los de menor peso. Por otra parte Random Forest, hace múltiples árboles de decisión teniendo en cuenta multitud de combinaciones. En función de lo que la mayoría de árboles de decisión determine, clasifica la entidad en uno u otro tipo. Para finalizar, el método bayesiano realiza una clasificación en base a cada parámetro por separado poniendo en común todos los resultados.

Más información

ID de Registro: 48835
Identificador DC: http://oa.upm.es/48835/
Identificador OAI: oai:oa.upm.es:48835
Depositado por: Biblioteca ETSI Industriales
Depositado el: 20 Dic 2017 14:48
Ultima Modificación: 25 Abr 2018 14:27
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • InvestigaM
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM