Aplicación de aprendizaje por transferencia para la predicción de tiempos de retención de metabolitos

Lorenzo Fernández-Cordeiro, Nicolás (2025). Aplicación de aprendizaje por transferencia para la predicción de tiempos de retención de metabolitos. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingeniería Agronómica, Alimentaria y de Biosistemas (UPM), Madrid.

Descripción

Título: Aplicación de aprendizaje por transferencia para la predicción de tiempos de retención de metabolitos
Autor/es:
  • Lorenzo Fernández-Cordeiro, Nicolás
Director/es:
Tipo de Documento: Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado: Grado en Biotecnología
Fecha: Julio 2025
Materias:
ODS:
Escuela: E.T.S. de Ingeniería Agronómica, Alimentaria y de Biosistemas (UPM)
Departamento: Biotecnología - Biología Vegetal
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_NICOLAS_LORENZO_FERNANDEZ_CORDEIRO.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (995kB)

Resumen

La predicción de tiempos de retención (RT) en cromatografía líquida de alta resolución a través de métodos de aprendizaje automático es una aproximación en auge, fundamental para la identificación de metabolitos. Sin embargo, enfrenta una problemática de escasez de datos experimentales disponibles. Este trabajo investiga el empleo de redes neuronales profundas a través de una metodología de aprendizaje por transferencia no supervisado, basada en el preentrenamiento de autoencoders, con el objetivo de mejorar la predicción de los tiempos de retención de metabolitos en comparación con los métodos tradicionales de aprendizaje automático. El objetivo principal fue evaluar si el preentrenamiento de autoencoders mediante representaciones moleculares permitía la posterior construcción de modelos de predicción de RT con mejor rendimiento que aquellos no preentrenados.

Para ello, se entrenaron múltiples autoencoders mediante una labor de reconstrucción de representaciones moleculares (fingerprints y descriptores) de compuestos de la base de datos RepoRT. Se seleccionaron los autoencoders más eficaces en términos de calidad de reconstrucción y se transfirieron sus representaciones latentes como entrada a redes neuronales supervisadas encargadas de la predicción de RT. Se crearon modelos preentrenados con fingerprints, descriptores, y ambos a la vez. El rendimiento de estas redes con preentrenamiento se comparó con el de modelos equivalentes entrenados desde cero. Adicionalmente, se evaluó la calidad de diversas arquitecturas de las redes neuronales acopladas al espacio latente.

Los resultados mostraron que los autoencoders lograron reconstruir los datos moleculares con muy alta fidelidad, lo que da a entender que eran capaces de capturar las características relevantes de las moléculas. Sin embargo, en la tarea de predicción de RT, las redes preentrenadas ofrecieron peores resultados que las no preentrenadas. Solo al integrar las dos modalidades de datos (fingerprints y descriptores) se observó una eficacia equivalente. La discrepancia entre la alta eficacia lograda en el preentrenamiento de los autoencoders y los modestos resultados en la predicción de tiempos de retención podría sugerir que tanto la escasez de datos disponibles en metabolómica como la ausencia de un proceso de optimización de hiperparámetros han influido en el rendimiento de la aproximación basada en aprendizaje por transferencia no supervisado.

ABSTRACT

Prediction of retention time (RT) in high-performance liquid chromatography using machine learning methods is an emerging approach, key for metabolite identification. However, it faces significant challenges due to the scarcity of available experimental data. This project investigates the use of deep neural networks through an unsupervised transfer learning methodology, based on the pretraining of autoencoders, with the goal of improving the prediction of metabolite retention times compared to traditional machine learning methods. The main objective was to assess whether pretraining autoencoders on molecular representations would enable the subsequent construction of RT prediction models with better performance than those built from scratch.

To this end, multiple autoencoders were trained to reconstruct molecular representations (fingerprints and descriptors) of compounds from the RepoRT database. The most effective autoencoders, in terms of reconstruction quality, were selected, and their latent representations were transferred as inputs to supervised neural networks tasked with RT prediction. Pretrained models were created using fingerprints, descriptors, and both types of molecular representations combined. The performance of these pretrained networks was compared with that of equivalent models trained from scratch. Additionally, the quality of various neural network architectures coupled to the latent space was evaluated.

The results showed that the autoencoders successfully reconstructed the molecular data with very high fidelity, suggesting that they were able to capture relevant molecular features. However, in the RT prediction task, the pretrained networks performed worse than the non-pretrained models. Only when integrating both data modalities (fingerprints and descriptors) was comparable performance observed. The discrepancy between the high efficacy achieved during the autoencoder pretraining and the modest results in retention time prediction may suggest that both the limited amount of available metabolomics data and the absence of a hyperparameter optimization process have influenced the performance of the unsupervised transfer learning approach.

Más información

ID de Registro: 91434
Identificador DC: https://oa.upm.es/91434/
Identificador OAI: oai:oa.upm.es:91434
Depositado por: Biblioteca ETSI Agronómica, Alimentaria y de Biosistemas
Depositado el: 14 Oct 2025 11:20
Ultima Modificación: 14 Dic 2025 01:45