Big Medical Text Analytics: querying, searching and understanding clinical data

Costumero Moreno, Roberto (2017). Big Medical Text Analytics: querying, searching and understanding clinical data. Tesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.47852.

Descripción

Título: Big Medical Text Analytics: querying, searching and understanding clinical data
Autor/es:
  • Costumero Moreno, Roberto
Director/es:
  • Menasalvas Ruiz, Ernestina
  • Gonzalo Martín, Consuelo
Tipo de Documento: Tesis (Doctoral)
Fecha: 20 Septiembre 2017
Materias:
Palabras Clave Informales: Natural Language Processing; Electronic Health Records; Big Data; Procesamiento del Lenguaje Natural; Historias Clínicas Electrónicas
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Grupo Investigación UPM: MIDAS: Minería de Datos y Simulación
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

The increasing generation of data in different sectors thanks to digitalization has provoked a change in the techniques used to store, process and extract value and knowledge from different datasets. This change has also affected more traditional sectors like healthcare, which have been transformed in this process. The amount of medical data generated is increasing as the adoption of Electronic Health Records is becoming a standard in all the developed countries. The economic impact of the digitalization of medical data is estimated at $300 billion annually. Most of the data generated in healthcare are unstructured data: texts and images. The focus in this thesis is on the development of new techniques and methods that allow the structure and knowledge extraction from written texts which are stored in EHRs. This data is specially relevant as it contains information on the patient's health, their signs, symptoms, treatments, diseases and their evolution. The richness of this data, which is not already being exploited, can lead to the development of information systems to help doctors to make decisions. The main development of the research performed is focused on the analysis of the structure of the medical data mentioned in EHRs, as well as its challenges. The use of statistical models to identify the basic structures of Spanish language in written texts is the basis for the rest of developments. The identification of the different medical entities mentioned, as well as drug names, the detection of positivity or negativity of a sentence, together with the disambiguation of acronyms and abbreviations used, are some of the problems analyzed in this research. In order to realize this analysis, an architecture named H2A: Human Health Analytics has been designed, taking into account the interoperability of the different developed components and providing the corresponding flexibility for its use in different scenarios. As part of the development of this thesis, the methods and techniques developed have been applied to the study of a real life use case: the analysis on the evolution of stroke patients. This use case demonstrates the potential of these methods and its applicability to scenarios in which real data is used. Finally, in order to remark the industrial focus of this thesis, an analysis on the market conditions and a business plan has been developed to bring the technology developed in this thesis to the market.---ABSTRACT---La creciente generación de datos en distintos sectores debido a la digitalización ha provocado un cambio en las técnicas para almacenarlos, procesarlos y extraer valor y conocimiento de diferentes conjuntos de datos. Este cambio ha afectado también a sectores tradicionales como el sector de la salud, que ha sufrido un proceso de transformación. La cantidad de datos médicos generados está aumentando a medida que la adopción de las Historias Clínicas Electrónicas (HCE) se convierte en un estándar en los países desarrollados. El impacto económico de la digitalización de los datos médicos se estima en $300.000 millones anuales. La mayor parte de los datos generados en el sector de la salud, son datos no estructurados: texto e imágenes. El énfasis de esta tesis está en el desarrollo de nuevas técnicas y métodos que permitan la estructuración y la extracción de conocimiento de los textos escritos y almacenados en las HCEs. Estos datos cobran especial relevancia dado que contienen información sobre la salud de los pacientes, los signos, síntomas, tratamientos, enfermedades y evolución de los mismos. La riqueza de estos datos que aún no están aprovechados, puede servir para el desarrollo de sistemas de información que ayuden a los médicos a tomar decisiones. La investigación desarrollada se centra en el análisis de la estructuración de los datos mencionados en las HCEs, así como en los retos que esto supone. El uso de modelos estadísticos para identificar las estructuras básicas del lenguaje en textos escritos en espa˜nol sienta las bases del resto de los desarrollos. La identificación de los distintos términos médicos mencionados, así como los nombres de medicamentos, la detección de la positividad o negatividad de una frase, junto con la desambiguación de los acrónimos y abreviaturas usados, son parte de los problemas analizados en esta tesis de investigación. Para la realización de estos análisis, se ha dise˜nado una arquitectura denominada H2A: Human Health Analytics (H2A), que permite la interoperabilidad de los distintos componentes desarrollados y que provee de la flexibilidad correspondiente para su uso en distintos casos de estudio. Como parte del desarollo de esta tesis, se han aplicado los métodos y técnicas desarrollados en el estudio de un caso de uso real: el análisis de la evolución de pacientes de ictus. Este caso de estudio demuestra el potencial de estos métodos y su aplicabilidad en escenarios en los que se utilizan datos reales. Finalmente, para remarcar el enfoque industrial de esta tesis, se ha realizado un análisis del mercado y un modelo de negocio para poder comercializar la tecnología desarrollada en esta tesis.

Más información

ID de Registro: 47852
Identificador DC: http://oa.upm.es/47852/
Identificador OAI: oai:oa.upm.es:47852
Identificador DOI: 10.20868/UPM.thesis.47852
Depositado por: Alumno Roberto Costumero Moreno
Depositado el: 03 Oct 2017 12:22
Ultima Modificación: 08 Abr 2018 22:30
  • InvestigaM
  • GEO_UP4
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM