Convergent Policy Optimization for Safe Reinforcement Learning

Ming Yu; Zhuoran Yang; Mladen Kolar; Zhaoran Wang

doi:10.48550/arxiv.1910.12156

ScienceGate Book Chapters

JOURNAL ARTICLE

Convergent Policy Optimization for Safe Reinforcement Learning

Ming Yu Zhuoran Yang Mladen Kolar Zhaoran Wang

Year: 2019 Journal: arXiv (Cornell University) Vol: 32 Pages: 3121-3133 Publisher: Cornell University

DOI: 10.48550/arxiv.1910.12156

Get Full-Text PDF Get Analytical Report

Abstract

We study the safe reinforcement learning problem with nonlinear function approximation, where policy optimization is formulated as a constrained optimization problem with both the objective and the constraint being nonconvex functions. For such a problem, we construct a sequence of surrogate convex constrained optimization problems by replacing the nonconvex functions locally with convex quadratic functions obtained from policy gradient estimators. We prove that the solutions to these surrogate problems converge to a stationary point of the original nonconvex problem. Furthermore, to extend our theoretical results, we apply our algorithm to examples of optimal control and multi-agent reinforcement learning with safety constraints.

Keywords:

Reinforcement learning Mathematical optimization Optimization problem Trust region Nonlinear programming Convex optimization Computer science Constrained optimization Stationary point Sequence (biology) Constraint (computer-aided design) Mathematics Quadratic programming Regular polygon Nonlinear system Artificial intelligence

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Reinforcement Learning in Robotics

Physical Sciences → Computer Science → Artificial Intelligence

Adaptive Dynamic Programming Control

Physical Sciences → Computer Science → Computational Theory and Mathematics

Distributed Control Multi-Agent Systems

Physical Sciences → Computer Science → Computer Networks and Communications

Convergent Policy Optimization for Safe Reinforcement Learning

Abstract

Metrics

Citation History

Topics

Related Documents

Augmented Proximal Policy Optimization for Safe Reinforcement Learning

Penalized Proximal Policy Optimization for Safe Reinforcement Learning

Safe Policy Optimization for Reinforcement Learning in Robotics

CVaR-Constrained Policy Optimization for Safe Reinforcement Learning

Game-Theoretic Constrained Policy Optimization for Safe Reinforcement Learning