Aplicación de aprendizaje profundo por refuerzo a problemas de robótica aérea

López Sánchez, Aitor (2021). Aplicación de aprendizaje profundo por refuerzo a problemas de robótica aérea. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Aplicación de aprendizaje profundo por refuerzo a problemas de robótica aérea
Author/s:
  • López Sánchez, Aitor
Contributor/s:
  • Molina González, Martín
Item Type: Thesis (Master thesis)
Masters title: Inteligencia Artificial
Date: July 2021
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El sector tecnológico de los vehículos aéreos, comúnmente llamados drones, es un área en constante crecimiento. En la actualidad, tanto las técnicas de construcción como de manejo de estos vehículos permiten su aplicabilidad en multitud de situaciones. Además, estos vehículos aéreos pueden incorporar múltiples capacidades para realizar satisfactoriamente sus tareas, como técnicas de visión artificial, aprendizaje automático, planificación automática, etc. En este trabajo aplicamos técnicas de aprendizaje por refuerzo profundo para el control de drones en entornos de simulación. Las tareas realizadas pueden dividirse principalmente en tres: (i) desarrollo de un entorno de simulación para la aplicación de aprendizaje por refuerzo con el software Aerostack, (ii) estudio y aplicación de técnicas de aprendizaje por refuerzo profundo para la persecución de dos agentes aéreos y (iii) aumento de la capacidad de aprendizaje del agente mediante el uso de técnicas de trasferencia de aprendizaje. Las dos últimas tareas se han implementado y validado en el entorno desarrollado por la primera tarea. En esta, se han implementado dos entornos objetivos, uno bidimensional y otro tridimensional, que simulan las características físicas del vuelo de un dron utilizando el software Aerostack y el sistema de comunicación ROS. La aplicación del entrenamiento, con los algoritmos de aprendizaje por refuerzo profundo DDPG y PPO, en los entornos objetivos se ha obtenido que el algoritmo PPO es capaz de obtener un comportamiento superior al obtenido por el algoritmo DDPG en el mismo número de episodios de entrenamiento. Respecto a la aplicación de técnicas de trasferencia de aprendizaje con el algoritmo DDPG, se ha obtenido un rendimiento tres veces superior al entrenamiento original empleando tan solo un 10 % del tiempo. Estos resultados apoyan la trasmisión de aprendizaje para reducir costes de entrenamiento en tiempo y obtener resultados más estables.---ABSTRACT---The drone technology sector is an area that has seen significant growth in recent years. Nowadays, drone control techniques allow their applicability in a multitude of situations. Moreover, drones can use multiple capabilities to perform their tasks, such as computer vision, machine learning, simultaneous localization and mapping, etc. In this work, we use deep reinforcement learning methods to increase the degree of autonomous operations of drones the simulated environment of robotics. The three main tasks we developed are: (i) generate a reinforcement learning environment to fly simulated drones, (ii) make a study and application of deep reinforcement learning techniques for motion control and spatial navigation of drones and (iii) increase the learning skill of aerial agent with transfer learning. The last two tasks have been implemented and validated in the simulated environment developed by the first task. Two target environments, one two-dimensional and one three-dimensional, simulating the physical characteristics of drone flight have been implemented using the Aerostack software and ROS communication system. The application of training has been tested with two deep reinforcement learning algorithms, DDPG and PPO algorithms, And the results support that the PPO algorithm can perform better than the DDPG algorithm in the same number of training episodes. Concerning the application of transfer learning techniques with the DDPG algorithm, the performance has been three times higher than the original training and it has been obtained using only 10 % of the time. These results support transfer learning to reduce training costs in time and obtain more stable results.

More information

Item ID: 68638
DC Identifier: https://oa.upm.es/68638/
OAI Identifier: oai:oa.upm.es:68638
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 25 Sep 2021 15:45
Last Modified: 25 Sep 2021 15:45
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM