Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning

Rubio López, Ignacio (2016). Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título:	Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning
Autor/es:	Rubio López, Ignacio
Director/es:	Menasalvas Ruiz, Ernestina https://orcid.org/0000-0002-5615-6798
Tipo de Documento:	Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado:	Grado en Ingeniería Informática
Fecha:	Junio 2016
Materias:	Informática
ODS:	03. Salud y bienestar
Escuela:	E.T.S. de Ingenieros Informáticos (UPM)
Departamento:	Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_IGNACIO_RUBIO_LOPEZ.pdf]

Vista Previa

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (532kB) | Vista Previa

Resumen

En la última década debido a la gran cantidad de información generada con medios
tecnológicos, se ha determinado la información no estructurada como un gran nicho
de conocimiento implícito. Nuevas técnicas de la tecnologías de la información tienen
como objetivo extraer conocimiento explícito de información no estructurada, como
por ejemplo las técnicas de Procesamiento de Lenguaje Natural (PLN) más conocida
como Natural Language Processing (NLP). Estas técnicas, ayudadas por otras
técnicas de Machine Learning (Aprendizaje automático) son capaces de realizar tareas
de predicción y clasificación sobre elementos de los textos con bastante precisión.
En este trabajo se desarrollaría como se han utilizado las técnicas antes mencionadas
para la tarea de desambiguación de acrónimos.
Con la digitalización de los documentos en el ámbito sanitario, la extracción
de información de las notas clínicas puede ser extraída y utilizada en infinidad de
aplicaciones. Por desgracia, para realizar una extracción de esta información de
forma satisfactoria se requiere la resolución de diversos problemas que presenta la
información no estructurada. La ambigüedad es un problema crucial y en concreto
en este trabajo se resuelve la ambigüedad introducida por los acrónimos y siglas en
notas clínicas en español.A pesar de haber casi 500 millones de hispano-hablantes,
apenas se han desarrollado algoritmos de este tipo, por lo tanto este trabajo aborda
una problemática poco desarrollada.
En este trabajo se ha planteado el problema de desambiguación como un problema
de clasificación, es decir, se van a extraer diversas características lingüísticas,
como por ejemplo los conceptos biomédicos que rodean al acrónimo, o el análisis
morfológico de las palabras que le rodea. El algoritmo va a tratar de determinar si
con esas características una posible definición del acrónimo es correcta o no. Por lo
tanto las tareas principales que va a desarrollar este trabajo son la selección y extracci
ón de características, así como la selección de la técnica de Machine Learning
más adecuada para la tarea de desambiguación.
Los recursos utilizados para la realización de este trabajo constan de 150 notas
clínicas en espa~nol, procedentes de diversos hospitales que generan más de 30.000
datos para analizar. Además se han utilizado herramientas como UIMA para la
generación de metadatos en las notas clínicas junto con UMLS para a~nadir más
información sobre los conceptos médicos. Para las técnicas de Machine Learning
se ha utilizado la herramienta Weka que contiene múltiples algoritmos de Machine
Learning y algoritmos de validación.---ABSTRACT---During the last ten years, digitalized information has grown exponentially, and,
in order to extract implicit information from non-structured data, new technologies
have been developed. Natural Language Processing (NLP) techniques are used
to analyze digital texts and extract multiple types of information, which may be
useful for extracting implicit information. In the same vein, Machine Learning
techniques are regularly used in NLP to solve diferent issues during text analysis
processes. In this project, the use of Machine Learning techniques to solve the
acronym disambiguation task will be discussed.
Although there are nearly 500 million Spanish speakers worldwide, there seems
to be no algorithm for biomedical acronym disambiguation in medical texts written
in that language. The overuse of acronyms in clinical notes makes the NLP task
extremely dificult, due to the fact that acronyms introduce an enormous ambiguity.
The approach discussed in this project solves the acronym's ambiguity issue succesfully
by using contextual elements around the acronyms such as Part of Speech and
surrounding biomedical concepts.
The disambiguation problem has been defined as a classification task. The algorithm
will try to classify whether an acronym is standing for a definition or not.
Diferent features will be selected and extracted from the texts. Furthermore, different
Machine Learning algorithms will be selected and validated to find the most
suitable algorithm for the disambiguation task.
In this project, 150 clinical notes in Spanish from diferent hospitals have been
used. These notes have generated more than 30,000 entries to be analyzed. Additionally,
the tools used in this project have been: UIMA, to generate metadata from
the clinical notes; UMLS, to provide the information related to the biomedical field,
and Weka, to apply Machine Learning algorithms, create models and validate the
models created.

Más información

ID de Registro:	43503
Identificador DC:	https://oa.upm.es/43503/
Identificador OAI:	oai:oa.upm.es:43503
Depositado por:	Biblioteca Facultad de Informatica
Depositado el:	10 Oct 2016 07:21
Ultima Modificación:	10 Oct 2016 07:21

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional