Identificación de patrones en tratamientos de cáncer de pulmón por medio de métodos de clustering

Moreno Perdomo, Delia Aminta (2023). Identificación de patrones en tratamientos de cáncer de pulmón por medio de métodos de clustering. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Identificación de patrones en tratamientos de cáncer de pulmón por medio de métodos de clustering
Author/s:
  • Moreno Perdomo, Delia Aminta
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Ciencia de Datos
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_DELIA_AMINTA_MORENO_PERDOMO.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB)

Abstract

El cáncer de pulmón es una enfermedad oncológica con un pronóstico desfavorable y altas tasas de mortalidad. En el año 2020, se posicionó como el segundo cáncer más común, lo que lo convierte en una de las principales causas de muerte. Para el año 2023, se estima que habrá 1,958,310 nuevos casos de cáncer en general, con 609,820 muertes relacionadas. Dentro de este panorama, el cáncer de pulmón representa 238,340 nuevos casos y 127,070 muertes en ambos sexos, lo que equivale aproximadamente al 12% de todos los casos nuevos de cáncer y más del 53% de los pacientes con esta enfermedad fallecen, es decir, más de la mitad. Dada esta situación, resulta de vital importancia identificar qué tratamientos están recibiendo los pacientes, ya que esto juega un papel fundamental en su supervivencia y calidad de vida. Los tratamientos para el cáncer de pulmón, al igual que para otras formas de cáncer, pueden generar efectos secundarios no deseados, conocidos como toxicidades, que pueden o no manifestarse en cada paciente. Además, es relevante considerar que los pacientes pueden experimentar recaídas durante el curso del tratamiento, lo cual es otra característica crucial a tener en cuenta, ya que un grupo de pacientes puede recibir el mismo conjunto de tratamientos, pero solo algunos mostrarán toxicidades o recaídas. Es por estas razones que existen guías clínicas establecidas por especialistas, las cuales tienen como objetivo principal reducir los efectos adversos mencionados anteriormente. Estas guías clínicas determinan los conjuntos de tratamientos que se pueden aplicar a un paciente en función de diversas circunstancias, siendo una de las más importantes el estadio de la enfermedad. En el cáncer de pulmón, los estadios se clasifican en cuatro niveles: I, II, III y IV, donde un estadio más alto indica una mayor gravedad de la enfermedad. Por lo tanto, los conjuntos de tratamientos varían según el estadio y otros aspectos considerados por los especialistas. En este contexto, resulta muy útil evaluar una población de pacientes y comparar los conjuntos de tratamientos que cada uno ha recibido. Esto permitiría validar si se están siguiendo las guías clínicas establecidas y posiblemente descubrir nuevos patrones. En el presente estudio, se ha realizado un análisis de datos de pacientes con cáncer de pulmón, incluyendo información sobre el paciente, los tratamientos recibidos y los resultados obtenidos, como la presencia o ausencia de recaídas y toxicidades. Esto ha generado cuatro subpoblaciones de pacientes. Utilizando tres algoritmos (CLARANS, ROCK, y NDDS) y cuatro medidas diferentes (Hamming, Jaccard, Levenshtein y Sorensen) para datos categóricos no ordenados, se han identificado patrones de conjuntos de tratamientos dentro de cada subpoblación según el estadio de la enfermedad. Los resultados obtenidos se analizan en relación con las guías clínicas para el cáncer de pulmón, calculando el porcentaje de coincidencia para cada algoritmo y medida utilizados. Esto valida la eficacia de los algoritmos en la identificación de patrones y proporciona información relevante para el seguimiento de las guías clínicas establecidas.

ABSTRACT

Lung cancer is an oncological disease with an unfavorable prognosis and high mortality rates. In 2020, it ranked as the second most common cancer, making it one of the leading causes of death. By 2023, there are projected to be 1,958,310 new cases of cancer overall, with 609,820 cancer-related deaths. Within this landscape, lung cancer accounts for 238,340 new cases and 127,070 deaths in both sexes, representing approximately 12% of all new cancer cases and over 53% of patients with this disease succumb to it, meaning more than half. Given this situation, it is of vital importance to identify the treatments that patients are receiving, as it plays a crucial role in their survival and quality of life. Treatments for lung cancer, as with other types of cancer, can generate unwanted side effects, known as toxicities, which may or may not manifest in each patient. Additionally, it is relevant to consider that patients may experience relapses during treatment, which is another critical factor to consider, as a group of patients may receive the same set of treatments but only some of them will exhibit toxicities or relapses. For these reasons, established clinical guidelines by specialists exist, aiming to reduce the adverse effects. These clinical guidelines determine the sets of treatments that can be applied to a patient based on various circumstances, with disease stage being one of the most important factors. In lung cancer, stages are classified into four levels: I, II, III, and IV, where a higher stage indicates greater disease severity. Consequently, the sets of treatments vary based on the stage and other factors considered by specialists. In this context, it is highly beneficial to evaluate a population of patients and compare the sets of treatments they have received. This allows for validation of adherence to the established clinical guidelines and potentially discovering new patterns. In the present study, an analysis of data from lung cancer patients was conducted, encompassing patient information, received treatments, and outcomes such as the presence or absence of relapses and toxicities. This analysis resulted in four subpopulations of patients. By employing three algorithms (CLARANS, ROCK, and NDDS) and four different measures (Hamming, Jaccard, Levenshtein, and Sorensen) for unordered categorical data, patterns of treatment sets within each subpopulation based on disease stage were identified. The obtained results are analyzed in relation to lung cancer clinical guidelines, calculating the percentage of agreement for each algorithm and measure utilized. This validates the effectiveness of the algorithms in identifying patterns and provides relevant information for adherence to established clinical guidelines.

More information

Item ID: 75905
DC Identifier: https://oa.upm.es/75905/
OAI Identifier: oai:oa.upm.es:75905
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 15 Sep 2023 10:36
Last Modified: 15 Sep 2023 10:36
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM