Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning

Rubio López, Ignacio (2016). Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Descripción

Título: Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning
Autor/es:
  • Rubio López, Ignacio
Director/es:
  • Menasalvas Ruiz, Ernestina
Tipo de Documento: Proyecto Fin de Carrera/Grado
Grado: Grado en Ingeniería Informática
Fecha: Junio 2016
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (532kB) | Vista Previa

Resumen

En la última década debido a la gran cantidad de información generada con medios tecnológicos, se ha determinado la información no estructurada como un gran nicho de conocimiento implícito. Nuevas técnicas de la tecnologías de la información tienen como objetivo extraer conocimiento explícito de información no estructurada, como por ejemplo las técnicas de Procesamiento de Lenguaje Natural (PLN) más conocida como Natural Language Processing (NLP). Estas técnicas, ayudadas por otras técnicas de Machine Learning (Aprendizaje automático) son capaces de realizar tareas de predicción y clasificación sobre elementos de los textos con bastante precisión. En este trabajo se desarrollaría como se han utilizado las técnicas antes mencionadas para la tarea de desambiguación de acrónimos. Con la digitalización de los documentos en el ámbito sanitario, la extracción de información de las notas clínicas puede ser extraída y utilizada en infinidad de aplicaciones. Por desgracia, para realizar una extracción de esta información de forma satisfactoria se requiere la resolución de diversos problemas que presenta la información no estructurada. La ambigüedad es un problema crucial y en concreto en este trabajo se resuelve la ambigüedad introducida por los acrónimos y siglas en notas clínicas en español.A pesar de haber casi 500 millones de hispano-hablantes, apenas se han desarrollado algoritmos de este tipo, por lo tanto este trabajo aborda una problemática poco desarrollada. En este trabajo se ha planteado el problema de desambiguación como un problema de clasificación, es decir, se van a extraer diversas características lingüísticas, como por ejemplo los conceptos biomédicos que rodean al acrónimo, o el análisis morfológico de las palabras que le rodea. El algoritmo va a tratar de determinar si con esas características una posible definición del acrónimo es correcta o no. Por lo tanto las tareas principales que va a desarrollar este trabajo son la selección y extracci ón de características, así como la selección de la técnica de Machine Learning más adecuada para la tarea de desambiguación. Los recursos utilizados para la realización de este trabajo constan de 150 notas clínicas en espa~nol, procedentes de diversos hospitales que generan más de 30.000 datos para analizar. Además se han utilizado herramientas como UIMA para la generación de metadatos en las notas clínicas junto con UMLS para a~nadir más información sobre los conceptos médicos. Para las técnicas de Machine Learning se ha utilizado la herramienta Weka que contiene múltiples algoritmos de Machine Learning y algoritmos de validación.---ABSTRACT---During the last ten years, digitalized information has grown exponentially, and, in order to extract implicit information from non-structured data, new technologies have been developed. Natural Language Processing (NLP) techniques are used to analyze digital texts and extract multiple types of information, which may be useful for extracting implicit information. In the same vein, Machine Learning techniques are regularly used in NLP to solve diferent issues during text analysis processes. In this project, the use of Machine Learning techniques to solve the acronym disambiguation task will be discussed. Although there are nearly 500 million Spanish speakers worldwide, there seems to be no algorithm for biomedical acronym disambiguation in medical texts written in that language. The overuse of acronyms in clinical notes makes the NLP task extremely dificult, due to the fact that acronyms introduce an enormous ambiguity. The approach discussed in this project solves the acronym's ambiguity issue succesfully by using contextual elements around the acronyms such as Part of Speech and surrounding biomedical concepts. The disambiguation problem has been defined as a classification task. The algorithm will try to classify whether an acronym is standing for a definition or not. Diferent features will be selected and extracted from the texts. Furthermore, different Machine Learning algorithms will be selected and validated to find the most suitable algorithm for the disambiguation task. In this project, 150 clinical notes in Spanish from diferent hospitals have been used. These notes have generated more than 30,000 entries to be analyzed. Additionally, the tools used in this project have been: UIMA, to generate metadata from the clinical notes; UMLS, to provide the information related to the biomedical field, and Weka, to apply Machine Learning algorithms, create models and validate the models created.

Más información

ID de Registro: 43503
Identificador DC: http://oa.upm.es/43503/
Identificador OAI: oai:oa.upm.es:43503
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 10 Oct 2016 07:21
Ultima Modificación: 10 Oct 2016 07:21
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM