Cooperative off-policy prediction of markov decision processes in adaptive networks

Valcarcel Macua, Sergio; Chen, Jianshu; Zazo Bello, Santiago y Sayed, Ali H. (2013). Cooperative off-policy prediction of markov decision processes in adaptive networks. En: "IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)", 26/05/2013 - 31/05/2013, Vancouver, Canada. pp. 4539-4543. https://doi.org/10.1109/ICASSP.2013.6638519.

Descripción

Título: Cooperative off-policy prediction of markov decision processes in adaptive networks
Autor/es:
  • Valcarcel Macua, Sergio
  • Chen, Jianshu
  • Zazo Bello, Santiago
  • Sayed, Ali H.
Tipo de Documento: Ponencia en Congreso o Jornada (Artículo)
Título del Evento: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
Fechas del Evento: 26/05/2013 - 31/05/2013
Lugar del Evento: Vancouver, Canada
Título del Libro: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
Fecha: 2013
Materias:
Escuela: E.T.S.I. Telecomunicación (UPM)
Departamento: Señales, Sistemas y Radiocomunicaciones
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (851kB)

Resumen

We apply diffusion strategies to propose a cooperative reinforcement learning algorithm, in which agents in a network communicate with their neighbors to improve predictions about their environment. The algorithm is suitable to learn off-policy even in large state spaces. We provide a mean-square-error performance analysis under constant step-sizes. The gain of cooperation in the form of more stability and less bias and variance in the prediction error, is illustrated in the context of a classical model. We show that the improvement in performance is especially significant when the behavior policy of the agents is different from the target policy under evaluation.

Más información

ID de Registro: 28941
Identificador DC: http://oa.upm.es/28941/
Identificador OAI: oai:oa.upm.es:28941
Identificador DOI: 10.1109/ICASSP.2013.6638519
Depositado por: Memoria Investigacion
Depositado el: 29 Jun 2014 11:38
Ultima Modificación: 22 Sep 2014 11:43
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM