Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
Rosado Fernández, Eduardo (2020). Aplicación de técnicas de NLP a la literatura científica biomédica: detección de bases de datos y análisis predictivo de la terminología MeSH. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.
Title: | Aplicación de técnicas de NLP a la literatura científica biomédica: detección de bases de datos y análisis predictivo de la terminología MeSH |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería Informática |
Date: | June 2020 |
Subjects: | |
Freetext Keywords: | Procesamiento del lenguaje natural; Minería de textos; Bases de datos; Aprendizaje automático; Bioinformática; Natural language processing; Text mining; Databases; Machine learning; Bioinformatics |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
En el presente trabajo se describen y aplican avances recientes en el área del Procesamiento del Lenguaje Natural. La arquitectura Transformer (2017), seguida de los modelos de lenguaje BERT (2018) y RoBERTa (2019), ha supuesto una inflexión y un gran avance en el área de la Inteligencia Artificial aplicada al análisis de textos. En el caso de este TFG, las tareas abordadas están orientadas a la minería de textos científicos biomédicos. En particular se han utilizado artículos científicos provenientes de Pubmed, Pubmed Central y CORD-19. Se han definido dos objetivos principales. En primer lugar hemos diseñado e implementado un sistema de detección de bases de datos en la literatura científica. Este sistema es capaz de identificar artículos científicos que presenten y hagan disponible una nueva base de datos. La arquitectura empleada consiste en una combinación de modelos RoBERTa y obtiene un f1-score de 0.929 en un conjunto de prueba. Aplicando este enfoque a los repositorios de artículos originales, hemos recopilado un total de 10,417 bases de datos, una cifra muy superior a los actuales repositorios recopilados manualmente. El segundo de los objetivos hace referencia al uso de la terminología MeSH cómo herramienta de clasificación de artículos científicos y el potencial de la arquitectura utilizada para automatizar este proceso. Hemos abordado esta tarea con dos enfoques distintos. En el primer experimento hemos utilizado un modelo para predecir si un artículo está etiquetado con el término más frecuente de la terminología obteniendo en validación un valor ROC-AUC de 0,928. Para términos menos frecuentes, el resultado fue de 0,836 (frecuencia media) y 0,686 (frecuencia baja). En el segundo experimento hemos dividido la terminología MeSH en subgrupos utilizando diversas técnicas de “Machine Learning” (Aprendizaje Automático). A continuación hemos entrenado un clasificador de artículos para términos provenientes de uno de los grupos mencionados. Un análisis de los resultados muestra cómo el primer enfoque es muy prometedor, ya que alcanza un rendimiento excelente para términos muy frecuentes y un rendimiento moderado pero superior al estado de la cuestión para términos poco frecuentes. Para confirmar estos resultados, el sistema ha de ser evaluado en la totalidad de los términos MeSH.---ABSTRACT---In the following study we describe and apply the latest techniques for Natural Language Processing as of 2020. The Transformer architecture published in 2017 along with language models such as BERT (2018) and RoBERTa (2019) have been an inflection point in the field, they represent a great step forward in the area of Artificial Intelligence for textual data. The tasks we address in this study are related to text mining applied to the biomedical research field. In particular, we used scientific articles collected from Pubmed, Pubmed Central and CORD-19. We have defined two main objectives. First we designed and implemented a system for database detection. Such a system is able identify scientific articles which are responsible for the publication of a new database. Our architecture, which is a combination of RoBERTa models, obtains an f1-score of 0.929 in the test set. After applying this system to the original articles repositories, we collected a total of 10,417 databases, a substantially higher number than that of manually curated databases. Our second objective refers to the MeSH terminology as a classification tool for scientific articles and the potential of the architecture applied in this study for the automatization of such a classification process. We have applied two different approaches to this task. In our first experiment we used a RoBERTa model to predict whether an article has been labeled with the most frequent MeSH term. We obtained a ROCAUC validation score of 0.928. For less frequent terms, we obtained a score of 0.836 (medium frequency) and 0.686 (low frequency). In our second experiment we divided the MeSH terminology into different groups by using an array of Machine Learning techniques. Then we trained an article classifier for MeSH terms coming from one of the previously mentioned groups. The results of the first approach are promising, showing excellent performance for frequent terms and a moderate, but superior to the state-of-the-art performance for less frequent terms. In order to confirm these results we shall evaluate the system in all of the MeSH terms.
Item ID: | 63120 |
---|---|
DC Identifier: | https://oa.upm.es/63120/ |
OAI Identifier: | oai:oa.upm.es:63120 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 22 Jul 2020 08:20 |
Last Modified: | 27 May 2022 17:06 |