Determinación de la relevancia temática de un mensaje corto en función de su análisis semántico

Sánchez Martínez, Gonzalo (2019). Determinación de la relevancia temática de un mensaje corto en función de su análisis semántico. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).

Description

Title: Determinación de la relevancia temática de un mensaje corto en función de su análisis semántico
Author/s:
  • Sánchez Martínez, Gonzalo
Contributor/s:
  • Ordieres-Meré, Joaquín
Item Type: Final Project
Degree: Grado en Ingeniería en Tecnologías Industriales
Date: July 2019
Subjects:
Freetext Keywords: Twitter, ciencia de datos, nlp, NER, reconocimiento de entidades, analisis semantico, entidades, entrenamiento de algoritmos, natural language processing, busquedas, redes sociales
Faculty: E.T.S.I. Industriales (UPM)
Department: Ingeniería de Organización, Administración de Empresas y Estadística
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only until 4 December 2019 - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (6MB)

Abstract

A lo largo de este trabajo de determinación de la relevancia de un mensaje corto en función de su análisis semántico se desgranan todos los pasos seguidos para el diseño, la implementación, la mejora, la evaluación y la puesta a punto de una herramienta que, dada una noticia publicada en medios de comunicación, es capaz de generar términos de búsqueda y emplearlos en la recuperación de miles de tweets relacionados de forma directa con la noticia dada con una precisión del 90%. De esta forma, los pasos seguidos para el desarrollo de la siguiente herramienta ha sido los siguientes: En primer lugar, se ha diseñado la arquitectura general de la herramienta. Empezando por la captura de los artículos, su procesamiento, la extracción de las partes relevantes. A continuación, se calculan cuáles son las palabras con mayor frecuencia relativa, mediante su comparación con un corpus de cientos de artículos de noticias, y cuáles las entidades más frecuentes, mediante el algoritmo SpaCy de identificación de entidades, y se elaboran decenas de combinaciones entre todos los términos de búsqueda para ver cuáles son las que alcanzan una mayor de cantidad de tweets recuperados y una mayor precisión. Se resuelve que la mejor configuración para realizar búsquedas son las combinaciones de dos términos de búsqueda extraídas entre los cinco términos frecuentes. La segunda conclusión de esta fase es que la extracción de entidades con un algoritmo de NER (named entity recognition) para español ofrece un rendimiento muy bajo y, por eso, las búsquedas que contienen palabras se comportan de manera mucho más estable que las búsquedas que contienen entidades, que a veces contienen entidades que no son realmente entidades sino palabras aleatorias debido a una mala identificación. Es precisamente por el bajo rendimiento de la herramienta de reconocimiento de entidades que se decide entrenar de forma manual el algoritmo para aumentar su precisión y que los términos de búsqueda que extraiga sean más representativos del contenido de los artículos. Esta es la fase del proyecto que más horas de trabajo ha requerido. Tras un proceso de entrenamiento en el que se anotan 18 artículos de noticias con más de 1000 entidades reconocidas de forma manual, el rendimiento del algoritmo ha aumentado en casi un 60%. A partir de ahí, la identificación de entidades es ya lo suficientemente fiable como para extraer certeros términos de búsqueda y el empleo de entidades supera por primera vez a la búsqueda basada en palabras. Por otro lado, el algoritmo entrenado, dado que es puntero en cuanto prestaciones se refiere para textos en español, es subido a un repositorio de código (GitHub) para libre disposición de los usuarios. A continuación, una vez que la extracción de entidades de los artículos ha sido mejorada sustancialmente, se decide probar una serie de estrategias de búsqueda que puedan generar resultados con mayor precisión. Entre las estrategias que se prueban está la extracción de palabras y entidades del primer párrafo del artículo en vez del texto entero y el uso de artículos procedentes de agencias de información en vez de medios generalistas. La primera estrategia resulta empeorar los resultados hasta entonces obtenidos pero la segunda estrategia, el uso de artículos de agencias, permite obtener resultados significativamente mejores sobre todo en capacidad de recuperación de tweets. También se ensayan estrategias al margen del análisis sintáctico, como el filtrado de tweets que no contengan enlaces a noticias que resulta fallida ya que reduce demasiado la capacidad de recuperar muchos tweets y se ensaya con el filtrado temporal de tweets en función de la fecha de publicación de la noticia que resulta conveniente aplicarlo en noticias enmarcadas en temáticas que generan muchas noticias en los medios de forma prolongada. Por último, con la herramienta de NER entrenada y depurada, se concluye que el uso de entidades como términos de búsqueda es capaz de generar resultados sensiblemente mejores que los obtenidos usando palabras. Por tanto, la configuración que se termina por juzgar óptima para la recuperación masiva y precisa de tweets es el uso de combinaciones de dos términos de búsqueda provenientes de las cinco entidades más frecuentes presentes en artículos publicados por agencias de comunicación. De esta forma, se ha desarrollado una herramienta que es capaz a la vez de recuperar miles de tweets y de hacerlo de forma precisa ya que la inmensa mayoría de ellos será relevante con respecto a la noticia de la que se quieren recuperar dichos mensajes.

More information

Item ID: 56701
DC Identifier: http://oa.upm.es/56701/
OAI Identifier: oai:oa.upm.es:56701
Deposited by: Biblioteca ETSI Industriales
Deposited on: 07 Oct 2019 12:16
Last Modified: 07 Oct 2019 12:16
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM