Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning

Rubio López, Ignacio (2016). Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning
Author/s:
  • Rubio López, Ignacio
Contributor/s:
  • Menasalvas Ruiz, Ernestina
Item Type: Final Project
Degree: Grado en Ingeniería Informática
Date: June 2016
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (532kB) | Preview

Abstract

En la última década debido a la gran cantidad de información generada con medios tecnológicos, se ha determinado la información no estructurada como un gran nicho de conocimiento implícito. Nuevas técnicas de la tecnologías de la información tienen como objetivo extraer conocimiento explícito de información no estructurada, como por ejemplo las técnicas de Procesamiento de Lenguaje Natural (PLN) más conocida como Natural Language Processing (NLP). Estas técnicas, ayudadas por otras técnicas de Machine Learning (Aprendizaje automático) son capaces de realizar tareas de predicción y clasificación sobre elementos de los textos con bastante precisión. En este trabajo se desarrollaría como se han utilizado las técnicas antes mencionadas para la tarea de desambiguación de acrónimos. Con la digitalización de los documentos en el ámbito sanitario, la extracción de información de las notas clínicas puede ser extraída y utilizada en infinidad de aplicaciones. Por desgracia, para realizar una extracción de esta información de forma satisfactoria se requiere la resolución de diversos problemas que presenta la información no estructurada. La ambigüedad es un problema crucial y en concreto en este trabajo se resuelve la ambigüedad introducida por los acrónimos y siglas en notas clínicas en español.A pesar de haber casi 500 millones de hispano-hablantes, apenas se han desarrollado algoritmos de este tipo, por lo tanto este trabajo aborda una problemática poco desarrollada. En este trabajo se ha planteado el problema de desambiguación como un problema de clasificación, es decir, se van a extraer diversas características lingüísticas, como por ejemplo los conceptos biomédicos que rodean al acrónimo, o el análisis morfológico de las palabras que le rodea. El algoritmo va a tratar de determinar si con esas características una posible definición del acrónimo es correcta o no. Por lo tanto las tareas principales que va a desarrollar este trabajo son la selección y extracci ón de características, así como la selección de la técnica de Machine Learning más adecuada para la tarea de desambiguación. Los recursos utilizados para la realización de este trabajo constan de 150 notas clínicas en espa~nol, procedentes de diversos hospitales que generan más de 30.000 datos para analizar. Además se han utilizado herramientas como UIMA para la generación de metadatos en las notas clínicas junto con UMLS para a~nadir más información sobre los conceptos médicos. Para las técnicas de Machine Learning se ha utilizado la herramienta Weka que contiene múltiples algoritmos de Machine Learning y algoritmos de validación.---ABSTRACT---During the last ten years, digitalized information has grown exponentially, and, in order to extract implicit information from non-structured data, new technologies have been developed. Natural Language Processing (NLP) techniques are used to analyze digital texts and extract multiple types of information, which may be useful for extracting implicit information. In the same vein, Machine Learning techniques are regularly used in NLP to solve diferent issues during text analysis processes. In this project, the use of Machine Learning techniques to solve the acronym disambiguation task will be discussed. Although there are nearly 500 million Spanish speakers worldwide, there seems to be no algorithm for biomedical acronym disambiguation in medical texts written in that language. The overuse of acronyms in clinical notes makes the NLP task extremely dificult, due to the fact that acronyms introduce an enormous ambiguity. The approach discussed in this project solves the acronym's ambiguity issue succesfully by using contextual elements around the acronyms such as Part of Speech and surrounding biomedical concepts. The disambiguation problem has been defined as a classification task. The algorithm will try to classify whether an acronym is standing for a definition or not. Diferent features will be selected and extracted from the texts. Furthermore, different Machine Learning algorithms will be selected and validated to find the most suitable algorithm for the disambiguation task. In this project, 150 clinical notes in Spanish from diferent hospitals have been used. These notes have generated more than 30,000 entries to be analyzed. Additionally, the tools used in this project have been: UIMA, to generate metadata from the clinical notes; UMLS, to provide the information related to the biomedical field, and Weka, to apply Machine Learning algorithms, create models and validate the models created.

More information

Item ID: 43503
DC Identifier: http://oa.upm.es/43503/
OAI Identifier: oai:oa.upm.es:43503
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 10 Oct 2016 07:21
Last Modified: 10 Oct 2016 07:21
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM