Model-based Reinforcement Learning: A Survey
La toma de decisiones secuenciales, comúnmente formalizada como optimización de Procesos de Decisión de Markov (MDP), es un reto importante en inteligencia artificial. Dos enfoques clave de este problema son el aprendizaje por refuerzo (RL) y la planificación. Esta monografía estudia una integración de ambos campos, más conocida como aprendizaje de refuerzo basado en modelos.
El RL basado en modelos consta de dos pasos principales: el aprendizaje de modelos dinámicos y la integración de la planificación y el aprendizaje. En este exhaustivo estudio del tema, los autores abordan en primer lugar el aprendizaje de modelos dinámicos, incluyendo retos como el tratamiento de la estocasticidad, la incertidumbre, la observabilidad parcial y la abstracción temporal. A continuación, presentan una categorización sistemática de la integración de la planificación y el aprendizaje, que incluye aspectos como: dónde empezar a planificar, qué presupuestos asignar a la planificación y a la recopilación de datos reales, cómo planificar y cómo integrar la planificación en el bucle de aprendizaje y actuación.
En conclusión, los autores discuten la RL basada en modelos implícitos como una alternativa de principio a fin para el aprendizaje y la planificación de modelos, y cubren los beneficios potenciales de la RL basada en modelos. Además, los autores establecen conexiones con varios campos de la RL relacionados, como la RL jerárquica y el aprendizaje por transferencia.
Esta monografía contiene una amplia visión conceptual de la combinación de planificación y aprendizaje para la optimización del Proceso de Decisión de Markov. Proporciona una introducción clara y completa al tema tanto para estudiantes como para investigadores.
© Book1 Group - todos los derechos reservados.
El contenido de este sitio no se puede copiar o usar, ni en parte ni en su totalidad, sin el permiso escrito del propietario.
Última modificación: 2024.11.14 07:32 (GMT)