Sistema UAV de seguimiento visual basado en aprendizaje por refuerzo y aleatorización de dominio

Fernández Zafra, Joaquín (2020). Sistema UAV de seguimiento visual basado en aprendizaje por refuerzo y aleatorización de dominio. Thesis (Master thesis), E.T.S.I. Industriales (UPM).

Description

Title: Sistema UAV de seguimiento visual basado en aprendizaje por refuerzo y aleatorización de dominio
Author/s:
  • Fernández Zafra, Joaquín
Contributor/s:
  • Campoy Cervera, Pascual
  • Rodriguez, Alejandro
Item Type: Thesis (Master thesis)
Masters title: Automática y Robótica
Date: February 2020
Subjects:
Freetext Keywords: Inteligencia artificial, aprendizaje por refuerzo, cuadricóptero, seguimiento visual, aleatorización de dominio, vuelo no tripulado
Faculty: E.T.S.I. Industriales (UPM)
Department: Automática, Ingeniería Eléctrica y Electrónica e Informática Industrial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (7MB) | Preview

Abstract

El aprendizaje por refuerzo es un área en auge dentro de la inteligencia artificial. En este tipo de sistemas un agente percibe el estado de un entorno y se utiliza una función de recompensa para guiar su comportamiento. Este tipo de técnicas, inspiradas en el comportamiento y aprendizaje animal, utilizan recompensas positivas para incentivar aquel comportamiento que se aproxime al deseado. El agente aprende una política basada en parejas de estados y acciones que maximiza no solo las recompensas puntuales, sino la recompensa acumulada a largo plazo. Diversos sistemas basados en aprendizaje por refuerzo han conseguido grandes avances recientemente. Dos emjemplos son el complejo juego de Go, en el que se ha conseguido sobrepasar a expertos mundiales, y la creación de un único sistema capaz de superar a jugadores humanos en multitud de videojuegos. La ventaja de este tipo de sistemas es que pueden aprender de datos de experiencia generados de diversas fuentes. Al aprender con experiencia simulada y compitiendo contra sí mismos son capaces de acumular una expeciencia equivalente a miles de horas. Sin embargo esta dependencia de datos simulados hace que sea más complicado entrenar sistemas robóticos con estas técnicas que generalicen un buen comportamiento real a partir de la simulación. Una técnica que ha mostrado buenos resultados en robótica basada en aprendizaje por refuerzo es la aleatorización de dominio. Como su propio nombre indica, impliza variar aleatoriamente diversos aspectos del entorno simulado como parámetros físicos, aspectos visuales, etc. De este modo se fuerza al agente a aprender una única política capaz de generalizar un comportamiento válido para una distribución de diferentes entornos. Esta flexibilidad permite al agente conseguir un mejor comportamiento en pruebas reales que agentes entrenados sin esta técnica. Además tiene la ventaja de no necesitar modelos secundarios como modelos generativos o técnicas de trasferencia de dominio. En este trabajo se ha desarrollado e implementado un systema de seguimiento visual autónomo en un cuadricóptero, entrenado en simulación con aprendizaje por refuerzo y aleatorización de dominio. Se han probado agentes con y sin aleatorización en diferentes pruebas. Todos los datos de entrenamiento han sido generados a partir de simulación, y el sistema ha sido validado con pruebas reales.

More information

Item ID: 57828
DC Identifier: http://oa.upm.es/57828/
OAI Identifier: oai:oa.upm.es:57828
Deposited by: Biblioteca ETSI Industriales
Deposited on: 03 Feb 2020 07:06
Last Modified: 01 Jul 2020 22:30
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM