Extracción y estructuración de información de informes radiológicos de cáncer de mama

Turón Mallor, Pablo José (2020). Extracción y estructuración de información de informes radiológicos de cáncer de mama. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Extracción y estructuración de información de informes radiológicos de cáncer de mama
Author/s:
  • Turón Mallor, Pablo José
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: October 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_PABLO_JOSE_TURON_MALLOR.pdf]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview

Abstract

El cáncer de mama es una de las principales causas de mortalidad de mujeres. Por ello, se están dedicando muchos esfuerzos para poder elaborar sistemas que puedan ayudar al diagnóstico del cáncer de mama. Sin embargo, los informes de mamografía y ecografía acostumbran a estar registrados en formato de lenguaje natural. Este hecho, dificulta el poder elaborar sistemas de ayuda a la decisión, ya que en los textos en formato de lenguaje natural hay una gran cantidad de información sin estructurar. Por ello, resulta de vital importancia disponer de un sistema previo capaz de extraer de la forma más precisa los conceptos relevantes de estos informes. En este proyecto se ha desarrollado un algoritmo capaz de localizar los distintos tipos de hallazgos contenidos en el léxico específico BI-RADS para las pruebas de mamografía y ecografía mediante técnicas de procesado de lenguaje natural (PLN). Este algoritmo comienza implementando un pre-procesamiento de los datos, en el que se homogeneiza el texto, se aplica un corrector ortográfico para reducir la variabilidad del texto, y se acaba extrayendo la parte relevante de los informes, en la que se separaría la información correspondiente a los hallazgos observados en la prueba, de la parte de antecedentes, motivos de consulta, etc. Una vez homogeneizado el texto, y extraída la información relevante para esta tarea, se procedió a desarrollar un sistema basado en reglas y patrones. Este sistema, examinaría el texto, estudiaría si se cumple cada regla, y determinaría si una palabra del texto hace referencia a un hallazgo BI-RADS en concreto. Tras elaborar este sistema basado en reglas, se estudió si, con los datos etiquetados por este sistema, se podría entrenar un sistema basado en aprendizaje supervisado, capaz de generalizar las normas de este sistema basado en reglas, y mejorar al mismo. Para la evaluación de los sistemas se etiquetó manualmente un conjunto de datos que se considerarían como “patrón oro”, consistente en 100 informes de ecografía, y 100 de mamografía. Así, se observó que el sistema basado en reglas y patrones desarrollado, es el que mejor métricas obtuvo, presentando valores de 0.86 en precision, 0.76 en recall y 0.77 en F1-Score. Por el otro lado, el sistema basado en aprendizaje supervisado no consiguió superar en estas métricas globalmente al sistema basado en reglas, pero sí acercarse, superando en términos de F1-score en 8 hallazgos al sistema basado en reglas, hallazgos en los que se podría decir, que el sistema ha conseguido generalizar la regla. Finalmente, como puntos adicionales en el proyecto, una vez localizados los distintos tipos de hallazgos BI-RADS en el texto, se procedió a encontrar cuáles, de estos hallazgos BI-RADS, estaban negados en el texto, y, en caso de estar negados, eliminar dicha categoría. Además, se decidió intentar a entrenar un modelo de ayuda a la decisión con los resultados.---ABSTRACT---Breast cancer is one of the leading causes of death for women. That’s the reason why researches are devoting a lot of effort to develop systems that can help the diagnosis of breast cancer. However, mammography and ultrasound reports are usually collected in natural language format. This fact, makes more difficult build decision support systems (DSS), because texts in natural language have a big amount of unstructured information. For this reason, it is so important to have a previous system capable of extracting the relevant concepts from these reports in the most precise way. In this project we have developed an algorithm capable of locating the different types of findings contained in the specific BI-RADS lexicon for mammography and ultrasound tests using natural language processing (NLP) techniques. This algorithm starts implementing a pre-processing of the data. In this preprocessing, we homogenize the text, we apply a spell checker to reduce the variability of the text, and the relevant information of the reports is extracted, in which the information corresponding to the findings of the test is separated from the background part, reasons for consultation, etc. Once text is homogenised, and relevant information for this project is extracted, we proceeded to develop a rule and pattern system. This system would examine the text, study whether each rule is met, and determine whether a word in text refers to a specific BI-RADS finding. After building this system of rules and patterns, we studied if it was possible to train a system based on supervised learning, with the data tagged by this system, capable of generalizing the performance of this system of rules and patterns and improve it. For the evaluation of the system, we tagged manually a set of data that would be considered “gold standard”. This data set consists of 100 ultrasound and 100 mammography reports. Thus, it was observed that the system based on rules and patterns developed, is the one that obtained the best metrics, showing values of 0.86 in precision, 0.76 in recall and 0.77 in F1-Score. On the other hand, the system based on supervised learning did not manage to overcome globally in these metrics to the rule-based system, but it was close, improving in terms of F1-score in 8 findings to the system based on rules, findings in which it could be said that the system has managed to generalize the rule. Finally, as an additional points to this project, once BI-RADS findings were located, we studied which of those findings were denied, and we proceeded to remove them if they were denied. Furthermore, we decided to try to train DSS with this results.

More information

Item ID: 65142
DC Identifier: https://oa.upm.es/65142/
OAI Identifier: oai:oa.upm.es:65142
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 30 Oct 2020 09:51
Last Modified: 30 Oct 2020 09:51
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM