Coordinación entre brazo robótico y cámara usando deep reinforcement learning

Algaba de la Vieja, Francisco (2017). Coordinación entre brazo robótico y cámara usando deep reinforcement learning. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Coordinación entre brazo robótico y cámara usando deep reinforcement learning
Author/s:
  • Algaba de la Vieja, Francisco
Contributor/s:
  • Lope Asiaín, Javier de
Item Type: Final Project
Degree: Grado en Ingeniería de Computadores
Date: July 2017
Subjects:
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview
[img] Archive (ZIP) - Users in campus UPM only
Download (395kB)
[img] Archive (ZIP) - Users in campus UPM only
Download (52kB)
[img] Archive (ZIP) - Users in campus UPM only
Download (15MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (15MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (15MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (632B)

Abstract

RESUMEN El uso de la Inteligencia Artificial cada vez forma más parte de nuestras vidas, desarrollando gran cantidad de tareas. Los últimos desarrollos en este ámbito aplicados a la robótica tienden al uso de soluciones basadas en el aprendizaje por refuerzo. Concretamente, mediante el uso del Deep Learning aplicado a técnicas de refuerzo tradicionales se han conseguido grandes avances en esta área. Este proyecto se centra en el desarrollo de un brazo robótico humanoide con un puntero láser en la punta que mediante el uso de una técnica denominada Deep Q-learning (DQN) sea capaz de apuntar donde una cámara este mirando. Nuestro método hace uso de un simulador 3D para el entrenamiento del brazo robótico en el cual el brazo no dispone de ningún conocimiento sobre el entorno que lo rodea ni del funcionamiento del mismo brazo. El agente usa como entrada la distancia entre el punto donde apunta el brazo y el punto donde mira la cámara y devuelve como acción un cierto movimiento de cada motor que forma el brazo. El espacio de estados tiene una enorme dimensionalidad por lo que el uso de discretizaciones y el uso de un sistema de recompensas adecuado es necesario para el aprendizaje de la política. Nuestros resultados demuestran que el uso de técnicas como DQN pueden usarse satisfactoriamente para el aprendizaje de políticas de control que resuelvan la tarea propuesta. También obtenemos buenos resultados a la hora de enfrentar a nuestro agente a entornos en los que no fue entrenado. Aun así, la capacidad de generalizar para el uso sistemas robóticos usando aprendizaje por refuerzo aún necesita mayor investigación. ABSTRACT Artificial Intelligence is becoming part of our lives, performing a huge variety of task nowadays. Recent trends in this field applied to robotics have seen a shift towards the use of reinforcement learning. Specifically, the use of Deep Learning combined with reinforcement learning classic techniques have shown huge improvements in this area. This project will focus in the development of a humanoid robotic arm with a laser pointer at its end capable of aiming where a camera is looking using a deep reinforcement learning technique called Deep Q-learning (DQN). We present an approach that uses three dimensional (3D) simulations to train this three-joint robotic arm in this task without any prior knowledge of the environment or the arm kinematics. The agent uses as input the distance between the point the arm is aiming and the point where the camera in this case is looking and outputs motor actions. The space of states has a very high dimensionality, so the use of discretization and a proper reward system is needed for learning the policy. Our results demonstrate that the use of DQN can be used to learn control policies that solve our proposed task. The agent demonstrates great performance when it needs to generalize when its faced to unfamiliar environments. Even so, the ability to generalize using deep reinforcement learning needs further research.

More information

Item ID: 48885
DC Identifier: http://oa.upm.es/48885/
OAI Identifier: oai:oa.upm.es:48885
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 18 Jan 2018 11:25
Last Modified: 18 Jan 2018 11:25
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM