Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil

López Delmás, Eduardo (2025). Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil. Trabajo Fin de Grado / Proyecto Fin de Carrera, E.T.S. de Ingenieros Informáticos (UPM), Boadilla del Monte.

Descripción

Título:	Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil
Autor/es:	López Delmás, Eduardo
Director/es:	Lope Asiaín, Javier de https://orcid.org/0000-0001-9779-6057
Tipo de Documento:	Trabajo Fin de Grado o Proyecto Fin de Carrera
Grado:	Grado en Ingeniería Informática
Fecha:	Junio 2025
Materias:	Informática
ODS:	04. Educación de calidad 09. Industria, innovación e infraestructura
Palabras Clave Informales:	Aprendizaje por refuerzo, Q-learning, Robótica móvil, Visión por computadora, Reinforcement Learning, Mobile robotics, Computer vision
Escuela:	E.T.S. de Ingenieros Informáticos (UPM)
Departamento:	Inteligencia Artificial
Licencias Creative Commons:	Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TFG_EDUARDO_LOPEZ_DELMAS.pdf]

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB)

Resumen

Este Trabajo de Fin de Grado aborda el diseño e implementación de un sistema de control autónomo para un robot móvil usando técnicas de aprendizaje por refuerzo. El objetivo principal es lograr que el robot sea capaz de seguir una línea dibujada en el suelo empleando únicamente la percepción visual. Para lograr este objetivo, se implementa en Python un controlador que combina el algoritmo Q-learning con técnicas de visión por computadora utilizando la librería OpenCV. La interacción física del agente con el entorno se simula a través de CoppeliaSim, que replica de forma precisa el comportamiento de un robot Pioneer P3DX, equipado con una cámara para capturar su campo de visión frontal. Las imágenes son procesadas para determinar la posición del robot con respecto a la línea, la cual se representa por medio de un número predeterminado de estados discretos. El entrenamiento consiste en un proceso de prueba y error, en el que el agente aprende a ejecutar las acciones óptimas para maximizar la recompensa acumulada, que se define en base a la precisión del alineamiento entre el robot y la línea. Durante el desarrollo del proyecto se evaluan diversas configuraciones de Q-table para determinar su impacto en la precisión, la estabilidad y la velocidad de convergencia. Asimismo, se analizan en profundidad los efectos de los hiperparámetros: tasa de aprendizaje, factor de descuento y tasa de exploración. Los resultados demuestran que el agente es capaz de aprender políticas de control eficientes y reproducibles con una correcta configuración y un buen diseño del espacio de estados. No obstante, se identifican ciertas limitaciones en relación con la capacidad de generalización y la sensibilidad del sistema de percepción a la discretización fina del espacio. El trabajo desarrollado supone una contribución académica y técnica al campo de estudio de la inteligencia artificial aplicada a robots móviles, sentando una sólida base para futuros avances, incluyendo la implementación en un robot real y la integración de redes neuronales profundas en la arquitectura del sistema.

ABSTRACT

This Final Degree Project presents the design and implementation of an autonomous control system for a mobile robot using reinforcement learning techniques. The primary objective is to enable the robot to follow a line drawn on the ground using only visual perception. To achieve this, the Q-learning algorithm is employed in combination with computer vision techniques implemented through the OpenCV library and the Python programming language. The simulation environment used is CoppeliaSim, which accurately replicates the physical behavior of the Pioneer P3DX robot, equipped with a front-facing camera for image acquisition. These images are processed to extract the robot’s position relative to the line, and the information is discretized into states that serve as input to the agent’s learning policy. The system is trained via a trial and error process, where the agent learns to make optimal decisions by maximizing cumulative rewards, defined based on its alignment with the line. Throughout the project, various Q-table configurations are evaluated to assess their impact on control precision, behavioral stability, and convergence speed. Additionally, the effects of key hyperparameters, such as learning rate, discount factor, and exploration strategy, are analyzed in depth. The results show that, with a correct configuration and well-designed state space, the agent can learn efficient and reproducible control policies. However, several limitations are also identified, particularly regarding generalization and sensitivity to small perception disturbances. This work represents both an academic and technical contribution to the study of artificial intelligence applied to mobile robotics, laying a solid foundation for future research, including a real world hardware implementation and the integration of deep neural networks for more complex visual environments.

Más información

ID de Registro:	90129
Identificador DC:	https://oa.upm.es/90129/
Identificador OAI:	oai:oa.upm.es:90129
Depositado por:	Biblioteca Facultad de Informatica
Depositado el:	23 Jul 2025 06:05
Ultima Modificación:	23 Jul 2025 06:05

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil

Cita

Descripción

Texto completo

Resumen

Más información

Acciones

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional