Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual

García-Ocaña Hernández, Daniel (2017). Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual. Thesis (Master thesis), E.T.S.I. Telecomunicación (UPM).

Description

Title: Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual
Author/s:
  • García-Ocaña Hernández, Daniel
Contributor/s:
  • Zazo Bello, Santiago
Item Type: Thesis (Master thesis)
Degree: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Masters title: Ingeniería de Telecomunicación
Date: 2017
Subjects:
Freetext Keywords: Control óptimo, programación dinámica, aprendizaje por refuerzo, proceso de decisión de Markov, teoría de control, gradiente en la política, dualidad, aprendizaje máquina, aprendizaje secuencial, ecuación de Bellman.
Faculty: E.T.S.I. Telecomunicación (UPM)
Department: Señales, Sistemas y Radiocomunicaciones
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) | Preview

Abstract

Uno de los problemas más importantes en el campo de aprendizaje automático es la toma de decisiones para conseguir un objetivo. Este tipo de problemas se suele denominar aprendizaje secuencial, y uno de los marcos de trabajo más prometedores es el denominado aprendizaje por refuerzo. Históricamente, los algoritmos de aprendizaje por refuerzo han sido motivados principalmente estableciendo conexiones con la teoría de control óptimo. En la actualidad existen diversos algoritmos de aprendizaje por refuerzo que implementan programación dinámica estimando la función valor del problema de forma estocástica, es decir, a partir de muestras y sin conocimiento previo de los datos del problema. Aunque estos algoritmos son completamente válidos, resulta interesante buscar nuevas interpretaciones que den lugar a nuevos algoritmos capaces de mejorar el desempeño de los ya existentes. El objetivo de este Trabajo de Fin de Máster será el estudio y desarrollo de nuevos algoritmos de aprendizaje por refuerzo desde el punto de vista de la teoría de optimización. Para ello, se llevará a cabo una revisión de los fundamentos sobre los que se construye el campo del aprendizaje por refuerzo: los procesos de decisión de Markov y las ecuaciones de Bellman. Seguidamente, se hará una breve presentación de los conceptos fundamentales relativos a optimización convexa y teoría de la dualidad, y finalmente, se estudiará el estado del arte en lo que a los algoritmos de aprendizaje por refuerzo se refiere. Una vez completada la fase de revisión de estas teorías, se investigará la conexión entre el problema de control óptimo y su formulación como un problema de programación lineal, con la intención de desarrollar nuevos algoritmos de optimización estocástica que resuelvan el problema de aprendizaje por refuerzo. De este modo, se derivará el problema dual asociado a dicho programa lineal, y será precisamente a partir de esta formulación dual de la que se deriven importantes propiedades que darán pie a tomar un nuevo enfoque diferente de lo estudiado hasta ahora: la búsqueda en el espacio de políticas a través de la variable dual. Por último, se formalizarán dos algoritmos que empleen el método primal-dual desarrollado: uno para la resolución de problemas de pequeña escala, y su correspondiente extensión a problemas de gran escala, y se realizarán diversas pruebas de convergencia y comparación de resultados con algunas de las técnicas más empleadas en la actualidad, con el objetivo de evaluar la utilidad e idoneidad del algoritmo formulado.

More information

Item ID: 47317
DC Identifier: http://oa.upm.es/47317/
OAI Identifier: oai:oa.upm.es:47317
Deposited by: Biblioteca ETSI Telecomunicación
Deposited on: 24 Jul 2017 12:10
Last Modified: 11 Sep 2017 11:51
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM