Named entity recognition and normalization in biomedical literature: a practical case in SARS-CoV-2 literature

Alonso Casero, Álvaro (2021). Named entity recognition and normalization in biomedical literature: a practical case in SARS-CoV-2 literature. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Named entity recognition and normalization in biomedical literature: a practical case in SARS-CoV-2 literature
Author/s:
  • Alonso Casero, Álvaro
Contributor/s:
  • Corcho García, Óscar
  • Badenes Olmedo, Carlos
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2021
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

Las tareas de recuperación de información se han convertido en una herramienta esencial para la investigación biomédica. La tendencia creciente en el número de publicaciones ha hecho necesario desarrollar e implementar estas herramientas para ayudar a los investigadores a mantenerse al día con los últimos avances en su campo. Una de las tareas de minería de texto más fundamentales en la recuperación de información en el área biomédica es el reconocimiento de entidades nombradas biomédicas, como enfermedades, sustancias químicas o genes, lo que se conoce comúnmente como BioNER. Como complemento a este reconocimiento, las entidades detectadas suelen vincularse a bases de datos curadas en un proceso denominado linkeo o normalización de entidades (BioNEN). Las metodologías aplicadas en BioNER han ido evolucionando durante años hasta llegar al estado del arte actual, que se basa fundamentalmente en el uso de modelos de lenguaje como BERT que son preentrenados en el campo biomédico para especificar su conocimiento subyacente. La revisión realizada recorrerá cómo se realizan las tareas de NER y como ha sido su evolución hasta llegar a estos modelos del estado del arte actual. Esta revisión nos ha ayudado a implementar un sistema que se basa en el actual modelo del estado del arte, BioBERT. Un modelo BioBERT se ha puesto a punto para realizar la tarea NER para cada una de las clases de entidades consideradas: enfermedades, productos químicos y genética. Los resultados han sido normalizados mediante una búsqueda de índice inverso en una base de datos construida con la unión y mapeo de términos de múltiples fuentes. Este sistema se aplica en dos casos prácticos, uno como pieza central en una plataforma web a la que se pueden enviar textos para ser procesados por el sistema y otro para procesar el corpus CORD-19, compuesto por artículos relacionados con el SARS-CoV-2. Se ha evaluado el sistema, mostrando una puntuación F1 de 0,86 en PGxCorpus (en Micro-Average para coincidencias parciales, los resultados variarán ligeramente dependiendo del escenario considerado). Con un análisis de errores, concluimos que la mayoría de los errores se observaron debido a la detección incorrecta de los límites de las entidades.---ABSTRACT---Information retrieval tasks have become an essential tool for biomedical research. The growing tendency in the number of publications has made it necessary to develop and implement these tools to help researchers to keep up with the latest advances in their field. One of the most fundamental text-mining tasks in information retrieval in the biomedical area is the recognition of biomedical named entities like diseases, chemicals, genes. . . which is commonly known as BioNER. Complementarily to this recognition, detected entities are usually linked to curated databases in a process called entity linking or normalization (BioNEN). Methodologies applied in BioNER have been evolving for years until the current state-of-the-art, which is mainly based on the use of language models such as BERT that are pretrained in the biomedical field to specify its underlying knowledge. A review will walk through how the NER tasks are carried out and about its evolution until these current state-of-theart models. This review has allowed us to implement a system which is based on the current state-of-the-art model, BioBERT. One BioBERT model has been fine-tuned to perform NER task for each of the considered entity classes: diseases, chemicals and genetics. Results have been normalized through an inverse index search in a built database in which we join and map terms from multiple sources. This system is applied in two practical cases, a first one as the core piece in a web platform where text can be sent to be processed by the system and a second one for processing the CORD-19 corpus, composed by papers related to SARS-CoV-2. The system has been evaluated, showing an F1-Score of 0,86 in PGxCorpus (in Micro-Average for partial matches, the results will slightly vary depending on the considered scenario). With an error analysis, we conclude that most errors were observed to be due to incorrect boundary detection.

More information

Item ID: 67933
DC Identifier: https://oa.upm.es/67933/
OAI Identifier: oai:oa.upm.es:67933
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 23 Jul 2021 07:48
Last Modified: 23 Jul 2021 07:48
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM