Aplicación de técnicas de NLP a la literatura científica biomédica: detección de bases de datos y análisis predictivo de la terminología MeSH

Rosado Fernández, Eduardo (2020). Aplicación de técnicas de NLP a la literatura científica biomédica: detección de bases de datos y análisis predictivo de la terminología MeSH. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Aplicación de técnicas de NLP a la literatura científica biomédica: detección de bases de datos y análisis predictivo de la terminología MeSH
Author/s:
  • Rosado Fernández, Eduardo
Contributor/s:
  • Maojo García, Victor Manuel
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2020
Subjects:
Freetext Keywords: Procesamiento del lenguaje natural; Minería de textos; Bases de datos; Aprendizaje automático; Bioinformática; Natural language processing; Text mining; Databases; Machine learning; Bioinformatics
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

En el presente trabajo se describen y aplican avances recientes en el área del Procesamiento del Lenguaje Natural. La arquitectura Transformer (2017), seguida de los modelos de lenguaje BERT (2018) y RoBERTa (2019), ha supuesto una inflexión y un gran avance en el área de la Inteligencia Artificial aplicada al análisis de textos. En el caso de este TFG, las tareas abordadas están orientadas a la minería de textos científicos biomédicos. En particular se han utilizado artículos científicos provenientes de Pubmed, Pubmed Central y CORD-19. Se han definido dos objetivos principales. En primer lugar hemos diseñado e implementado un sistema de detección de bases de datos en la literatura científica. Este sistema es capaz de identificar artículos científicos que presenten y hagan disponible una nueva base de datos. La arquitectura empleada consiste en una combinación de modelos RoBERTa y obtiene un f1-score de 0.929 en un conjunto de prueba. Aplicando este enfoque a los repositorios de artículos originales, hemos recopilado un total de 10,417 bases de datos, una cifra muy superior a los actuales repositorios recopilados manualmente. El segundo de los objetivos hace referencia al uso de la terminología MeSH cómo herramienta de clasificación de artículos científicos y el potencial de la arquitectura utilizada para automatizar este proceso. Hemos abordado esta tarea con dos enfoques distintos. En el primer experimento hemos utilizado un modelo para predecir si un artículo está etiquetado con el término más frecuente de la terminología obteniendo en validación un valor ROC-AUC de 0,928. Para términos menos frecuentes, el resultado fue de 0,836 (frecuencia media) y 0,686 (frecuencia baja). En el segundo experimento hemos dividido la terminología MeSH en subgrupos utilizando diversas técnicas de “Machine Learning” (Aprendizaje Automático). A continuación hemos entrenado un clasificador de artículos para términos provenientes de uno de los grupos mencionados. Un análisis de los resultados muestra cómo el primer enfoque es muy prometedor, ya que alcanza un rendimiento excelente para términos muy frecuentes y un rendimiento moderado pero superior al estado de la cuestión para términos poco frecuentes. Para confirmar estos resultados, el sistema ha de ser evaluado en la totalidad de los términos MeSH.---ABSTRACT---In the following study we describe and apply the latest techniques for Natural Language Processing as of 2020. The Transformer architecture published in 2017 along with language models such as BERT (2018) and RoBERTa (2019) have been an inflection point in the field, they represent a great step forward in the area of Artificial Intelligence for textual data. The tasks we address in this study are related to text mining applied to the biomedical research field. In particular, we used scientific articles collected from Pubmed, Pubmed Central and CORD-19. We have defined two main objectives. First we designed and implemented a system for database detection. Such a system is able identify scientific articles which are responsible for the publication of a new database. Our architecture, which is a combination of RoBERTa models, obtains an f1-score of 0.929 in the test set. After applying this system to the original articles repositories, we collected a total of 10,417 databases, a substantially higher number than that of manually curated databases. Our second objective refers to the MeSH terminology as a classification tool for scientific articles and the potential of the architecture applied in this study for the automatization of such a classification process. We have applied two different approaches to this task. In our first experiment we used a RoBERTa model to predict whether an article has been labeled with the most frequent MeSH term. We obtained a ROCAUC validation score of 0.928. For less frequent terms, we obtained a score of 0.836 (medium frequency) and 0.686 (low frequency). In our second experiment we divided the MeSH terminology into different groups by using an array of Machine Learning techniques. Then we trained an article classifier for MeSH terms coming from one of the previously mentioned groups. The results of the first approach are promising, showing excellent performance for frequent terms and a moderate, but superior to the state-of-the-art performance for less frequent terms. In order to confirm these results we shall evaluate the system in all of the MeSH terms.

More information

Item ID: 63120
DC Identifier: http://oa.upm.es/63120/
OAI Identifier: oai:oa.upm.es:63120
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 22 Jul 2020 08:20
Last Modified: 22 Jul 2020 08:20
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM