Monitorización a través de la voz y mediante redes neuronales de pacientes de la enfermedad de Parkinson

Gallego Van Megroot, Juan Pablo (2025). Monitorización a través de la voz y mediante redes neuronales de pacientes de la enfermedad de Parkinson. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Boadilla del Monte.

Descripción

Título: Monitorización a través de la voz y mediante redes neuronales de pacientes de la enfermedad de Parkinson
Autor/es:
  • Gallego Van Megroot, Juan Pablo
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Ingeniería Informática
Fecha: Enero 2025
Materias:
ODS:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Arquitectura y Tecnología de Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_JUAN_PABLO_GALLEGO_VAN_MEGROOT.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (621kB)

Resumen

La enfermedad de Parkinson es un trastorno neurodegenerativo crónico que afecta progresivamente las capacidades motoras y, en etapas tempranas, puede manifestarse mediante alteraciones en la voz y el habla. Este Trabajo de Fin de Grado desarrolla y compara dos enfoques basados en redes neuronales para la detección de la enfermedad de Parkinson a partir de grabaciones de voz en español. Se implementó una red neuronal convolucional (CNN) construida desde cero con TensorFlow/Keras, además de un ajuste fino (fine-tuning) de un modelo preentrenado denominado Audio Spectrogram Transformer (AST). En ambos casos se utilizó la librería Optuna para optimizar los hiperparámetros de los modelos. Se utilizaron los conjuntos de datos de PC-GITA y NeuroVoz, además de una combinación de los dos. Los resultados muestran que la CNN alcanza una exactitud al rededor del 70 % en los tres conjuntos de datos, mientras que el AST logra valores alrededor del 80 %. Esto corrobora el potencial de los AST y el transfer learning, superando incluso a modelos con arquitecturas ad hoc en entornos con datos moderados. También se abordan consideraciones sobre impacto ´ético, privacidad de datos y limitaciones del estudio. En conclusión, este trabajo evidencia la viabilidad de la voz como biomarcador y la utilidad de modelos de Deep Learning para la identificación no invasiva de la enfermedad, facilitando su posible implementación clínica.

ABSTRACT

Parkinson’s disease is a chronic neurodegenerative disorder that progressively affects motor abilities and, in its early stages, can manifest through voice and speech alterations. This Final Thesis Project develops and compares two neural network-based approaches for detecting Parkinson’s disease using Spanish voice recordings. A convolutional neural network (CNN) was implemented from scratch with TensorFlow/Keras, along with fine-tuning of a pre-trained model called the Audio Spectrogram Transformer (AST). In both cases, the Optuna library was used to optimize the models’ hyperparameters. The PC-GITA and NeuroVoz datasets were utilized, as well as a combination of the two. The results show that the CNN achieves an accuracy around 70 % across all three datasets, while the AST achieves values around 80 %. This corroborates the potential of ASTs, even beating CNN models with ad hoc architectures in moderate data environments. Ethical impact considerations, data privacy, and study limitations are also discussed. In conclusion, this project demonstrates the feasibility of voice as a biomarker and the utility of Deep Learning models for non-invasive disease identification, facilitating potential clinical implementation.

Más información

ID de Registro: 87798
Identificador DC: https://oa.upm.es/87798/
Identificador OAI: oai:oa.upm.es:87798
Depositado por: Biblioteca Facultad de Informatica
Depositado el: 13 Feb 2025 06:31
Ultima Modificación: 13 Feb 2025 06:33