Extracción automática de categorías BI-RADS a partir de informes radiológicos

González López, José (2020). Extracción automática de categorías BI-RADS a partir de informes radiológicos. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S. de Ingenieros Informáticos (UPM), Madrid, España.

Description

Title: Extracción automática de categorías BI-RADS a partir de informes radiológicos
Author/s:
  • González López, José
Contributor/s:
  • García Remesal, Miguel
Item Type: Final Project
Degree: Grado en Matemáticas e Informática
Date: June 2020
Subjects:
Freetext Keywords: Text mining; Preprocesado de textos; Representación de textos; Clasificación de textos; Text preprocessing; Text representation; Text classifier
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB) | Preview

Abstract

El text mining es un concepto bastante nuevo en el mundo de la informática que ha ganado bastante fuerza en los últimos años debido a sus numerosas aplicaciones en diversos problemas en el manejo de grandes cantidades de información almacenadas en los textos. Desde un punto de vista bastante práctico, este trabajo se ha desarrollado con la finalidad de adaptar técnicas de recogida de datos y aprendizaje automático para evaluar y clasificar informes médicos radiológicos de un hospital madrileño. Contando con casi diez mil reportes médicos, el conjunto de datos ha sido lo suficientemente extenso para obtener instancias de todas las clases pedidas y poder realizar así un mejor entrenamiento de los modelos. Con el análisis del conjunto resuelto, el siguiente paso fue adaptar el conjunto de datos a formatos que el ordenador pudiese manejar con más facilidad. Para ello, se realizó una fase de preprocesamiento de texto previa para limpiar y uniformizar el formato del texto. Posteriormente, se estudió la posibilidad de aplicar diferentes técnicas de representación de los textos para evaluar diferentes opciones y así abordar el mismo problema de diversas formas, extrayendo resultados y conclusiones en el proceso. Cada una de las representaciones fue empleada para alimentar a cada clasificador de texto para estudiar la viabilidad de la herramienta en cada caso. En este trabajo se han utilizado más de doce clasificadores diferentes y tres modelos de representación de textos. En cuanto a los resultados obtenidos, la conclusión principal es que no hay una manera única de resolver este tipo de problemas al haber muchas alternativas y metodologías divergentes. Los clasificadores de texto obtenidos con las representaciones correspondientes han demostrado ser capaces de categorizar los textos con precisiones bastante aceptables e incluso han excedido en algunos casos las expectativas previstas.---ABSTRACT---Text mining is a new concept in computer science that has increased its precesence recently due to its numerous applications in various problems in handling large amounts of information stored in texts. From a practical point of view, this work has been developed with the main aim of converting large data collections and use machine learning algorithms to evaluate and classify radiological medical reports from a hospital. With almost ten thousand medical reports, the dataset was extensive enough to obtain documents of all the requested classes and thus the training of the models were able to perform well. After the analysis of the dataset resolved, the next step was to convert the dataset into a format that the computer could handle more easily. To do this, a preliminary text preprocessing phase was carried out to clean and standardize the text format. Subsequently, the possibility of using different techniques of text representation to evaluate different options gave many options to approach the same problem in diverse ways as well as drawing results and conclusions in the whole process. Each of the representations was used to feed each text classifier to study the feasibility of the tool in each case. In this work, more than twelve different classifiers and three models of text representation have been used. Regarding the results that were obtained in the end, the main conclusion is that there is not an only way to solve this type of problem, since there are many divergent alternatives and methodologies in the text mining world. The text classifiers obtained with the corresponding representations have shown to be able to categorize the texts with quite acceptable accuracy and have even exceeded expectations in some cases.

More information

Item ID: 62933
DC Identifier: http://oa.upm.es/62933/
OAI Identifier: oai:oa.upm.es:62933
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 08 Jul 2020 08:54
Last Modified: 08 Jul 2020 08:54
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM