High-dimensional feature selection and structure learning of single nucleotide variants in hypertrophic cardiomyopathy

Lozano Paredes, Dafne (2023). High-dimensional feature selection and structure learning of single nucleotide variants in hypertrophic cardiomyopathy. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: High-dimensional feature selection and structure learning of single nucleotide variants in hypertrophic cardiomyopathy
Author/s:
  • Lozano Paredes, Dafne
Contributor/s:
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2023
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[thumbnail of TFM_DAFNE_LOZANO_PAREDES.pdf] PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (5MB)

Abstract

La miocardiopatía hipertrófica (HCM del inglés hypertrophic cardiomyopathy) es una enfermedad cardíaca compleja y heterogénea caracterizada por un engrosamiento anormal del miocardio, lo que conlleva complicaciones clínicas significativas y un mayor riesgo de muerte cardíaca súbita. En los últimos años, ha habido un creciente interés en utilizar técnicas de machine learning (ML) para mejorar la comprensión, el diagnóstico y el manejo de HCM. Este estudio tiene como objetivo proporcionar una visión general completa de algunos métodos de ML que pueden ser utilizados en el análisis de la HCM, incluyendo clasificadores lineales, exploración de relaciones entre características con informative variable identifier (IVI) y redes Bayesianas (BNs del inglés Bayesian networks).

Para comenzar, se analizó un conjunto de datos que comprende variantes genéticas y características clínicas de pacientes con HCM utilizando clasificadores lineales como support vector machines (SVMs) y Fisher lineal discriminat analysis (FLDA). Estos clasificadores identificaron un conjunto de variantes significativas en base a sus pesos, que podrían ser marcadores genéticos potenciales para la HCM. Posteriormente, se empleó el método IVI para explorar las relaciones entre características e identificar las variables más informativas y redundantes asociadas con la enfermedad. Este análisis reveló un subconjunto de variantes que mostraban relaciones fuertes. Además, se utilizaron las BNs para modelar las relaciones entre las variantes genéticas en la HCM. Mediante la utilización de la técnica de hill-climbing y el criterio de información bayesiano (BIC, del inglés bayesian information criterion), se construyeron las BNs para descubrir variantes clave y sus interacciones en el desarrollo de la HCM. Cabe destacar que el proceso de aprendizaje se aplicó a clases separadas, lo que permitió una comprensión más profunda de los mecanismos genéticos específicos de cada clase subyacentes a la progresión de la HCM.

Además, para obtener información sobre las implicaciones funcionales de las variantes identificadas, se realizó un exhaustivo análisis bibliográfico de los genes correspondientes. Este análisis reveló que los genes con pesos más altos estaban implicados en procesos de la HCM o de remodelación cardíaca, lo que respalda aún más su relevancia en el contexto de la HCM.

En conclusión, este estudio resalta la utilidad de los enfoques de ML en el análisis de la HCM, con un enfoque en clasificadores lineales, IVI para la exploración de relaciones entre características y BNs para la modelación de interacciones genéticas. Los hallazgos proporcionan información valiosa sobre posibles marcadores genéticos y la interacción de genes que actúan como una red compleja de reguladores causantes de la HCM. Estos resultados sugieren nuevas líneas de investigación para profundizar en la comprensión de los mecanismos causales y mejorar el diagnóstico y tratamiento.

ABSTRACT

Hypertrophic cardiomyopathy (HCM) is a complex and heterogeneous heart disease characterized by abnormal thickening of the myocardium, leading to significant clinical complications and an increased risk of sudden cardiac death. In recent years, there has been a growing interest in utilizing machine learning (ML) techniques to enhance the understanding, diagnosis, and management of HCM. This study aims to provide a comprehensive overview of some ML methods that can be used in HCM analysis, including linear classifiers, informative variable identifier (IVI) for exploring feature relationships, and Bayesian networks (BNs).

To begin, a dataset comprising genetic variants and clinical features of HCM patients was analyzed using linear classifiers such as support vector machines (SVMs) and Fisher’s linear discriminant analysis (FLDA). These classifiers identified a set of significant variants based on their weights, which could serve as potential genetic markers for HCM. Subsequently, the IVI method was employed to explore the relationships between features and identify the most informative and redundant variables associated with the disease. This analysis revealed a subset of variants that exhibited strong relationships. Furthermore, BNs were used to model the relationships among genetic variants in HCM. By utilizing the hill-climbing technique and Bayesian information criterion (BIC), BNs were constructed to uncover key variants and their interactions in HCM development. It is worth noting that the learning process was applied to separate classes, enabling a deeper understanding of specific genetic mechanisms underlying the progression of HCM.

Additionally, to gain insights into the functional implications of the identified variants, an extensive literature analysis of the corresponding genes was conducted. This analysis revealed that genes with higher weights were involved in HCM processes or cardiac remodeling, further supporting their relevance in the context of HCM.

In conclusion, this study highlights the utility of ML approaches in HCM analysis, focusing on linear classifiers, IVI for exploring feature relationships, and BNs for modeling genetic interactions. The findings provide valuable insights into potential genetic markers and the gene interaction network acting as complex regulators of HCM. These results suggest new research avenues for a deeper understanding of causal mechanisms and for improving the diagnosis and treatment of HCM.

More information

Item ID: 75867
DC Identifier: https://oa.upm.es/75867/
OAI Identifier: oai:oa.upm.es:75867
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 14 Sep 2023 10:53
Last Modified: 14 Sep 2023 10:53
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM