Aplicación de aprendizaje por refuerzo en un entorno personalizado y dinámico

Mendoza Medina, Alejandro (2025). Aplicación de aprendizaje por refuerzo en un entorno personalizado y dinámico. Tesis (Master), E.T.S.I. de Sistemas Informáticos (UPM).

Descripción

Título: Aplicación de aprendizaje por refuerzo en un entorno personalizado y dinámico
Autor/es:
  • Mendoza Medina, Alejandro
Director/es:
Tipo de Documento: Tesis (Master)
Título del máster: Aprendizaje Automático y Datos Masivos
Fecha: 11 Julio 2025
Materias:
ODS:
Palabras Clave Informales: Inteligencia artificial (IA); Aprendizaje Automático; Aprendizaje por refuerzo; Entorno personalizado; Q-Learning; Deep Q-Learning; Redes Neuronales; Investigación
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Sistemas Informáticos
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TESIS_MASTER_ALEJANDRO_MENDOZA_MEDINA.pdf] PDF (Portable Document Format) - Acceso permitido solamente a usuarios en el campus de la UPM - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB)

Resumen

El querer utilizar inteligencia artificial en cualquier ámbito conlleva unos beneficios, pero también unas obligaciones y problemas que surgen en el proceso de implementarla. Bien puede ser porque el modelo resulte muy costoso en términos económicos o temporales, bien porque la calidad de los datos con los que se entrena es insuficiente o porque el problema en sí requiere un enfoque de abordaje específico, entre otros casos. Más concretamente, en el aprendizaje por refuerzo, el agente tiene como entrenamiento el entorno con el que experimenta, por lo que entrena en tiempo real con el feedback que recibe del mismo.

El presente trabajo se centra en el estudio y desarrollo del aprendizaje por refuerzo desde una perspectiva orientada al diseño del entorno. A diferencia de muchas aproximaciones centradas en la arquitectura del agente o que utilizan entornos ya preexistentes, en este proyecto se plantea como eje principal la creación de un entorno personalizado desde cero: su modelado, implementación y adaptación para que sea compatible con algoritmos de aprendizaje por refuerzo. Se analizan las decisiones de diseño necesarias, los desafíos técnicos y las implicaciones que tiene el entorno sobre el comportamiento y rendimiento del agente. Este enfoque permite comprender de forma profunda cómo el entorno condiciona el aprendizaje, y pone en valor la importancia de su correcta definición en experimentos de inteligencia artificial interactiva.

Por último, se implementa una herramienta interactiva para la visualización del entrenamiento en tiempo real del agente y sus posteriores resultados, como ayuda a la aceleración de la investigación en esta área.

Abstract:

The desire to use artificial intelligence in any field brings about certain benefits, but also entails obligations and challenges that arise during its implementation. These challenges may be due to the high economic or time costs of a given model, the insufficient quality of the training data, or the need for a specialized approach to tackle the specific problem at hand, among other factors. More specifically, in reinforcement learning, the agent’s training is based on its interaction with the environment, meaning it learns in real time from the feedback it receives.

This work focuses on the study and development of reinforcement learning from an environmentoriented perspective. Unlike many approaches that concentrate on agent architecture or rely on pre-existing environments, this project places at its core the creation of a custom environment from scratch: its modeling, implementation, and adaptation to ensure compatibility with reinforcement learning algorithms. The work analyzes key design decisions, technical challenges, and the implications that the environment has on the agent’s behavior and performance. This approach allows for a deeper understanding of how the environment shapes learning, highlighting the importance of properly defining it in experiments involving interactive artificial intelligence.

Finally, an interactive tool is implemented for visualizing the agent’s real-time training and subsequent results, providing support for accelerating research in this area.

Más información

ID de Registro: 90688
Identificador DC: https://oa.upm.es/90688/
Identificador OAI: oai:oa.upm.es:90688
Depositado por: Biblioteca Universitaria Campus Sur
Depositado el: 11 Sep 2025 06:28
Ultima Modificación: 11 Sep 2025 06:28