Topic modeling for research software

Ayuso Luengo, María (2022). Topic modeling for research software. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Topic modeling for research software
Author/s:
  • Ayuso Luengo, María
Contributor/s:
  • Corcho García, Óscar
  • Garijo Verdejo, Daniel
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: June 2022
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (385kB)

Abstract

Actualmente la cantidad de publicaciones diarias en las diferentes áreas del Aprendizaje Automático imposibilita a investigadores el estar al día e incluso encontrar lo que están buscando en un límite razonable de tiempo. Este problema también se puede aplicar al desarrollo del software, puesto que la reutilización de código previamente desarrollado también les podría ahorrar mucho tiempo de investigación. En este trabajo se proponen diferentes métodos para procesar grandes cantidades de publicaciones junto con su software, basados en los resúmenes obtenidos de Papers With Code y sus correspondientes archivos README; con el objetivo de ahorrar trabajo a los investigadores y facilitarles la adopción de software. Este enfoque se basa en el modelado de tópicos para extraer los principales temas presentes y asignarlos a las distintas publicaciones sin tener que leerlas todas. Utilizamos tres algoritmos para encontrar los temas más coherentes. LDA es el algoritmo más utilizado para modelización de tópicos en un conjunto de textos y ha demostrado ser muy eficaz. A pesar de esto, también presenta ciertas limitaciones. Para cubrir su limitación a la hora de trabajar con documentos de poca longitud, proponemos aplicar también BTM, que fue diseñado específicamente para este tipo de textos. LDA también puede encontrar problemas para manejar las relaciones semánticas. Para ello utilizamos BERTopic, que utiliza la habilidad de modelos del lenguaje preentrenados para encontrar representaciones mejores y contextualizadas del texto. Los resultados corroboran la supuesta eficacia del algoritmo LDA, a la vez que enfatizan la influencia del ajuste de hiperparámetros. BERTopic también proporciona tópicos coherentes e interpretables. En general, concluimos que nuestros modelos identifican efectivamente la mayoría de los tópicos y podrían ser útiles para futuras implementaciones de búsqueda de temas o sistemas de recomendaciones.---ABSTRACT---Currently, the amount of daily publications in different fields of Machine Learning makes it impossible for researchers to be up to date and even to find what they’re looking for in a reasonable amount of time. This problem can be extended also for software developing, where reusing already developed code could save them up much research time. In this thesis, we propose different methods for processing a large number of papers along with their software, based on abstracts obtained from Papers With Code and their corresponding README files, in order to save researchers time and facilitate software adoption . This approach relies on topic modeling to extract the main topics present and assign them to the different publications without having to read them all. We use three different algorithms to find the most coherent topics. LDA is the algorithm most used when modelling topics within text, and has proven to be effective although it also has some limitations . To cover its limitation on working with documents of short length we also propose applying BTM, which was specifically designed for these types of text . LDA can also find problems to handle semantic relationships. For this we used BERTopic, which uses the hability of pretained language models to find better and contextualized text representations. Results corroborate the assumed effectiveness of LDA, while highlighting the influence of hyperparameter tuning. BERTopic also provided coherent and interpretable topics. Generally, we conclude that our models effectively identify most of the topics and could be useful for future topic search implementations or recommendation systems.

More information

Item ID: 71379
DC Identifier: https://oa.upm.es/71379/
OAI Identifier: oai:oa.upm.es:71379
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 26 Jul 2022 11:47
Last Modified: 26 Jul 2022 11:47
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM