Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual

García-Ocaña Hernández, Daniel (2017). Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual. Tesis (Master), E.T.S.I. Telecomunicación (UPM).

Descripción

Título: Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual
Autor/es:
  • García-Ocaña Hernández, Daniel
Director/es:
  • Zazo Bello, Santiago
Tipo de Documento: Tesis (Master)
Grado: Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación
Título del máster: Ingeniería de Telecomunicación
Fecha: 2017
Materias:
Palabras Clave Informales: Control óptimo, programación dinámica, aprendizaje por refuerzo, proceso de decisión de Markov, teoría de control, gradiente en la política, dualidad, aprendizaje máquina, aprendizaje secuencial, ecuación de Bellman.
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

Uno de los problemas más importantes en el campo de aprendizaje automático es la toma de decisiones para conseguir un objetivo. Este tipo de problemas se suele denominar aprendizaje secuencial, y uno de los marcos de trabajo más prometedores es el denominado aprendizaje por refuerzo. Históricamente, los algoritmos de aprendizaje por refuerzo han sido motivados principalmente estableciendo conexiones con la teoría de control óptimo. En la actualidad existen diversos algoritmos de aprendizaje por refuerzo que implementan programación dinámica estimando la función valor del problema de forma estocástica, es decir, a partir de muestras y sin conocimiento previo de los datos del problema. Aunque estos algoritmos son completamente válidos, resulta interesante buscar nuevas interpretaciones que den lugar a nuevos algoritmos capaces de mejorar el desempeño de los ya existentes. El objetivo de este Trabajo de Fin de Máster será el estudio y desarrollo de nuevos algoritmos de aprendizaje por refuerzo desde el punto de vista de la teoría de optimización. Para ello, se llevará a cabo una revisión de los fundamentos sobre los que se construye el campo del aprendizaje por refuerzo: los procesos de decisión de Markov y las ecuaciones de Bellman. Seguidamente, se hará una breve presentación de los conceptos fundamentales relativos a optimización convexa y teoría de la dualidad, y finalmente, se estudiará el estado del arte en lo que a los algoritmos de aprendizaje por refuerzo se refiere. Una vez completada la fase de revisión de estas teorías, se investigará la conexión entre el problema de control óptimo y su formulación como un problema de programación lineal, con la intención de desarrollar nuevos algoritmos de optimización estocástica que resuelvan el problema de aprendizaje por refuerzo. De este modo, se derivará el problema dual asociado a dicho programa lineal, y será precisamente a partir de esta formulación dual de la que se deriven importantes propiedades que darán pie a tomar un nuevo enfoque diferente de lo estudiado hasta ahora: la búsqueda en el espacio de políticas a través de la variable dual. Por último, se formalizarán dos algoritmos que empleen el método primal-dual desarrollado: uno para la resolución de problemas de pequeña escala, y su correspondiente extensión a problemas de gran escala, y se realizarán diversas pruebas de convergencia y comparación de resultados con algunas de las técnicas más empleadas en la actualidad, con el objetivo de evaluar la utilidad e idoneidad del algoritmo formulado.

Más información

ID de Registro: 47317
Identificador DC: http://oa.upm.es/47317/
Identificador OAI: oai:oa.upm.es:47317
Depositado por: Biblioteca ETSI Telecomunicación
Depositado el: 24 Jul 2017 12:10
Ultima Modificación: 11 Sep 2017 11:51
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM