Transformers for extracting breast cancer information from Spanish clinical narratives

Solarte Pabón, Oswaldo

, Montenegro, Orlando, García Barragán, Álvaro, Torrente Regidor, María, Provencio Pulla, Mariano, Menasalvas Ruiz, Ernestina

and Robles Forcada, Víctor

(2023). Transformers for extracting breast cancer information from Spanish clinical narratives. "Artificial Intelligence in Medicine", v. 143 ; pp. 1-11. ISSN 0933-3657. https://doi.org/10.1016/j.artmed.2023.102625.

Descripción

Título:	Transformers for extracting breast cancer information from Spanish clinical narratives
Autor/es:	Solarte Pabón, Oswaldo https://orcid.org/0000-0003-0315-2838 Montenegro, Orlando García Barragán, Álvaro Torrente Regidor, María Provencio Pulla, Mariano Menasalvas Ruiz, Ernestina https://orcid.org/0000-0002-5615-6798 Robles Forcada, Víctor https://orcid.org/0000-0003-3937-2269
Tipo de Documento:	Artículo
Título de Revista/Publicación:	Artificial Intelligence in Medicine
Fecha:	Septiembre 2023
ISSN:	0933-3657
Volumen:	143
Materias:	Informática Medicina
ODS:	03. Salud y bienestar
Palabras Clave Informales:	Breast cancer; Classification; Clinical narratives; Deep learning; documentation; Named Entity Recognition (NER); oncology; Recognition; RECORDS; Stage; Breast Cancer; Clinical narratives; deep learning; Named Entity Recognition (NER); Natural language processing (NLP); PATHOLOGY REPORTS
Escuela:	E.T.S. de Ingenieros Informáticos (UPM)
Departamento:	Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (1MB)

Resumen

The wide adoption of electronic health records (EHRs) offers immense potential as a source of support for clinical research. However, previous studies focused on extracting only a limited set of medical concepts to support information extraction in the cancer domain for the Spanish language. Building on the success of deep learning for processing natural language texts, this paper proposes a transformer-based approach to extract named entities from breast cancer clinical notes written in Spanish and compares several language models. To facilitate this approach, a schema for annotating clinical notes with breast cancer concepts is presented, and a corpus for breast cancer is developed. Results indicate that both BERT-based and RoBERTa-based language models demonstrate competitive performance in clinical Named Entity Recognition (NER). Specifically, BETO and multilingual BERT achieve F-scores of 93.71% and 94.63%, respectively. Additionally, RoBERTa Biomedical attains an F-score of 95.01%, while RoBERTa BNE achieves an F-score of 94.54%. The findings suggest that transformers can feasibly extract information in the clinical domain in the Spanish language, with the use of models trained on biomedical texts contributing to enhanced results. The proposed approach takes advantage of transfer learning techniques by fine-tuning language models to automatically represent text features and avoiding the time-consuming feature engineering process.

Proyectos asociados

Tipo

Código

Acrónimo

Responsable

Título

Horizonte 2020

875160

Sin especificar

Más información

ID de Registro:	81544
Identificador DC:	https://oa.upm.es/81544/
Identificador OAI:	oai:oa.upm.es:81544
URL Portal Científico:	https://portalcientifico.upm.es/es/ipublic/item/10091674
Identificador DOI:	10.1016/j.artmed.2023.102625
URL Oficial:	https://www.sciencedirect.com/science/article/pii/...
Depositado por:	iMarina Portal Científico
Depositado el:	27 Jun 2024 07:26
Ultima Modificación:	27 Jun 2024 09:17

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Transformers for extracting breast cancer information from Spanish clinical narratives

Cita

Descripción

Texto completo

Resumen

Proyectos asociados

Más información

Acciones

Metrics

Altmetrics probando

Dimensions

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional