Texto completo
Vista Previa |
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (532kB) | Vista Previa |
| Título: | Desambiguación de acrónimos biomédicos en español mediante técnicas de Machine Learning |
|---|---|
| Autor/es: |
|
| Director/es: |
|
| Tipo de Documento: | Trabajo Fin de Grado o Proyecto Fin de Carrera |
| Grado: | Grado en Ingeniería Informática |
| Fecha: | Junio 2016 |
| Materias: | |
| ODS: | |
| Escuela: | E.T.S. de Ingenieros Informáticos (UPM) |
| Departamento: | Lenguajes y Sistemas Informáticos e Ingeniería del Software |
| Licencias Creative Commons: | Reconocimiento - Sin obra derivada - No comercial |
Vista Previa |
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (532kB) | Vista Previa |
En la última década debido a la gran cantidad de información generada con medios
tecnológicos, se ha determinado la información no estructurada como un gran nicho
de conocimiento implícito. Nuevas técnicas de la tecnologías de la información tienen
como objetivo extraer conocimiento explícito de información no estructurada, como
por ejemplo las técnicas de Procesamiento de Lenguaje Natural (PLN) más conocida
como Natural Language Processing (NLP). Estas técnicas, ayudadas por otras
técnicas de Machine Learning (Aprendizaje automático) son capaces de realizar tareas
de predicción y clasificación sobre elementos de los textos con bastante precisión.
En este trabajo se desarrollaría como se han utilizado las técnicas antes mencionadas
para la tarea de desambiguación de acrónimos.
Con la digitalización de los documentos en el ámbito sanitario, la extracción
de información de las notas clínicas puede ser extraída y utilizada en infinidad de
aplicaciones. Por desgracia, para realizar una extracción de esta información de
forma satisfactoria se requiere la resolución de diversos problemas que presenta la
información no estructurada. La ambigüedad es un problema crucial y en concreto
en este trabajo se resuelve la ambigüedad introducida por los acrónimos y siglas en
notas clínicas en español.A pesar de haber casi 500 millones de hispano-hablantes,
apenas se han desarrollado algoritmos de este tipo, por lo tanto este trabajo aborda
una problemática poco desarrollada.
En este trabajo se ha planteado el problema de desambiguación como un problema
de clasificación, es decir, se van a extraer diversas características lingüísticas,
como por ejemplo los conceptos biomédicos que rodean al acrónimo, o el análisis
morfológico de las palabras que le rodea. El algoritmo va a tratar de determinar si
con esas características una posible definición del acrónimo es correcta o no. Por lo
tanto las tareas principales que va a desarrollar este trabajo son la selección y extracci
ón de características, así como la selección de la técnica de Machine Learning
más adecuada para la tarea de desambiguación.
Los recursos utilizados para la realización de este trabajo constan de 150 notas
clínicas en espa~nol, procedentes de diversos hospitales que generan más de 30.000
datos para analizar. Además se han utilizado herramientas como UIMA para la
generación de metadatos en las notas clínicas junto con UMLS para a~nadir más
información sobre los conceptos médicos. Para las técnicas de Machine Learning
se ha utilizado la herramienta Weka que contiene múltiples algoritmos de Machine
Learning y algoritmos de validación.---ABSTRACT---During the last ten years, digitalized information has grown exponentially, and,
in order to extract implicit information from non-structured data, new technologies
have been developed. Natural Language Processing (NLP) techniques are used
to analyze digital texts and extract multiple types of information, which may be
useful for extracting implicit information. In the same vein, Machine Learning
techniques are regularly used in NLP to solve diferent issues during text analysis
processes. In this project, the use of Machine Learning techniques to solve the
acronym disambiguation task will be discussed.
Although there are nearly 500 million Spanish speakers worldwide, there seems
to be no algorithm for biomedical acronym disambiguation in medical texts written
in that language. The overuse of acronyms in clinical notes makes the NLP task
extremely dificult, due to the fact that acronyms introduce an enormous ambiguity.
The approach discussed in this project solves the acronym's ambiguity issue succesfully
by using contextual elements around the acronyms such as Part of Speech and
surrounding biomedical concepts.
The disambiguation problem has been defined as a classification task. The algorithm
will try to classify whether an acronym is standing for a definition or not.
Diferent features will be selected and extracted from the texts. Furthermore, different
Machine Learning algorithms will be selected and validated to find the most
suitable algorithm for the disambiguation task.
In this project, 150 clinical notes in Spanish from diferent hospitals have been
used. These notes have generated more than 30,000 entries to be analyzed. Additionally,
the tools used in this project have been: UIMA, to generate metadata from
the clinical notes; UMLS, to provide the information related to the biomedical field,
and Weka, to apply Machine Learning algorithms, create models and validate the
models created.
| ID de Registro: | 43503 |
|---|---|
| Identificador DC: | https://oa.upm.es/43503/ |
| Identificador OAI: | oai:oa.upm.es:43503 |
| Depositado por: | Biblioteca Facultad de Informatica |
| Depositado el: | 10 Oct 2016 07:21 |
| Ultima Modificación: | 10 Oct 2016 07:21 |
Publicar en el Archivo Digital desde el Portal Científico