Risk-Sensitive Reinforcement Learning via Policy Gradient Search
El aprendizaje por refuerzo es uno de los pilares fundamentales de la inteligencia artificial y el aprendizaje automático. Una consideración importante en cualquier problema de optimización o control es la noción de riesgo, pero su incorporación al RL ha sido un desarrollo bastante reciente. Esta monografía examina la investigación sobre la RL sensible al riesgo que utiliza la búsqueda de gradiente de políticas.
Los autores repasan algunos de los trabajos recientes en este campo, concretamente cuando el enfoque de solución es la búsqueda de gradiente de política. En el primer escenario de RL sensible al riesgo, cubren medidas de riesgo populares basadas en la varianza, el valor condicional en riesgo y las restricciones de azar, y presentan una plantilla para algoritmos de RL sensibles al riesgo basados en gradientes de política que utilizan una formulación lagrangiana. En el caso de que el riesgo se incorpore directamente a la función objetivo, los autores consideran una formulación de utilidad exponencial, la teoría de la perspectiva acumulativa y medidas de riesgo coherentes.
Escrito tanto para principiantes como para expertos, los autores han conseguido que el texto sea completamente autocontenido, pero también lo han organizado de manera que los lectores expertos puedan saltarse los capítulos de fondo. Se trata de una guía completa para estudiantes e investigadores que trabajan en este aspecto del aprendizaje automático.
© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)