Abstract
El aprendizaje por refuerzo es un área en auge dentro de la inteligencia artificial. En este tipo de sistemas un agente percibe el estado de un entorno y se utiliza una función de recompensa para guiar su comportamiento. Este tipo de técnicas, inspiradas en el comportamiento y aprendizaje animal, utilizan recompensas positivas para incentivar aquel comportamiento que se aproxime al deseado. El agente aprende una política basada en parejas de estados y acciones que maximiza no solo las recompensas puntuales, sino la recompensa acumulada a largo plazo. Diversos sistemas basados en aprendizaje por refuerzo han conseguido grandes avances recientemente. Dos emjemplos son el complejo juego de Go, en el que se ha conseguido sobrepasar a expertos mundiales, y la creación de un único sistema capaz de superar a jugadores humanos en multitud de videojuegos. La ventaja de este tipo de sistemas es que pueden aprender de datos de experiencia generados de diversas fuentes. Al aprender con experiencia simulada y compitiendo contra sí mismos son capaces de acumular una expeciencia equivalente a miles de horas. Sin embargo esta dependencia de datos simulados hace que sea más complicado entrenar sistemas robóticos con estas técnicas que generalicen un buen comportamiento real a partir de la simulación. Una técnica que ha mostrado buenos resultados en robótica basada en aprendizaje por refuerzo es la aleatorización de dominio. Como su propio nombre indica, impliza variar aleatoriamente diversos aspectos del entorno simulado como parámetros físicos, aspectos visuales, etc. De este modo se fuerza al agente a aprender una única política capaz de generalizar un comportamiento válido para una distribución de diferentes entornos. Esta flexibilidad permite al agente conseguir un mejor comportamiento en pruebas reales que agentes entrenados sin esta técnica. Además tiene la ventaja de no necesitar modelos secundarios como modelos generativos o técnicas de trasferencia de dominio. En este trabajo se ha desarrollado e implementado un systema de seguimiento visual autónomo en un cuadricóptero, entrenado en simulación con aprendizaje por refuerzo y aleatorización de dominio. Se han probado agentes con y sin aleatorización en diferentes pruebas. Todos los datos de entrenamiento han sido generados a partir de simulación, y el sistema ha sido validado con pruebas reales.