@unpublished{upm68638, title = {Aplicaci{\'o}n de aprendizaje profundo por refuerzo a problemas de rob{\'o}tica a{\'e}rea}, school = {ETSI\_Informatica}, author = {Aitor L{\'o}pez S{\'a}nchez}, year = {2021}, month = {July}, url = {https://oa.upm.es/68638/}, abstract = {El sector tecnol{\'o}gico de los veh{\'i}culos a{\'e}reos, com{\'u}nmente llamados drones, es un {\'a}rea en constante crecimiento. En la actualidad, tanto las t{\'e}cnicas de construcci{\'o}n como de manejo de estos veh{\'i}culos permiten su aplicabilidad en multitud de situaciones. Adem{\'a}s, estos veh{\'i}culos a{\'e}reos pueden incorporar m{\'u}ltiples capacidades para realizar satisfactoriamente sus tareas, como t{\'e}cnicas de visi{\'o}n artificial, aprendizaje autom{\'a}tico, planificaci{\'o}n autom{\'a}tica, etc. En este trabajo aplicamos t{\'e}cnicas de aprendizaje por refuerzo profundo para el control de drones en entornos de simulaci{\'o}n. Las tareas realizadas pueden dividirse principalmente en tres: (i) desarrollo de un entorno de simulaci{\'o}n para la aplicaci{\'o}n de aprendizaje por refuerzo con el software Aerostack, (ii) estudio y aplicaci{\'o}n de t{\'e}cnicas de aprendizaje por refuerzo profundo para la persecuci{\'o}n de dos agentes a{\'e}reos y (iii) aumento de la capacidad de aprendizaje del agente mediante el uso de t{\'e}cnicas de trasferencia de aprendizaje. Las dos {\'u}ltimas tareas se han implementado y validado en el entorno desarrollado por la primera tarea. En esta, se han implementado dos entornos objetivos, uno bidimensional y otro tridimensional, que simulan las caracter{\'i}sticas f{\'i}sicas del vuelo de un dron utilizando el software Aerostack y el sistema de comunicaci{\'o}n ROS. La aplicaci{\'o}n del entrenamiento, con los algoritmos de aprendizaje por refuerzo profundo DDPG y PPO, en los entornos objetivos se ha obtenido que el algoritmo PPO es capaz de obtener un comportamiento superior al obtenido por el algoritmo DDPG en el mismo n{\'u}mero de episodios de entrenamiento. Respecto a la aplicaci{\'o}n de t{\'e}cnicas de trasferencia de aprendizaje con el algoritmo DDPG, se ha obtenido un rendimiento tres veces superior al entrenamiento original empleando tan solo un 10 \% del tiempo. Estos resultados apoyan la trasmisi{\'o}n de aprendizaje para reducir costes de entrenamiento en tiempo y obtener resultados m{\'a}s estables.---ABSTRACT---The drone technology sector is an area that has seen significant growth in recent years. Nowadays, drone control techniques allow their applicability in a multitude of situations. Moreover, drones can use multiple capabilities to perform their tasks, such as computer vision, machine learning, simultaneous localization and mapping, etc. In this work, we use deep reinforcement learning methods to increase the degree of autonomous operations of drones the simulated environment of robotics. The three main tasks we developed are: (i) generate a reinforcement learning environment to fly simulated drones, (ii) make a study and application of deep reinforcement learning techniques for motion control and spatial navigation of drones and (iii) increase the learning skill of aerial agent with transfer learning. The last two tasks have been implemented and validated in the simulated environment developed by the first task. Two target environments, one two-dimensional and one three-dimensional, simulating the physical characteristics of drone flight have been implemented using the Aerostack software and ROS communication system. The application of training has been tested with two deep reinforcement learning algorithms, DDPG and PPO algorithms, And the results support that the PPO algorithm can perform better than the DDPG algorithm in the same number of training episodes. Concerning the application of transfer learning techniques with the DDPG algorithm, the performance has been three times higher than the original training and it has been obtained using only 10 \% of the time. These results support transfer learning to reduce training costs in time and obtain more stable results.} }