Online Markov Decision Processes Under Bandit Feedback

Gergely Neu; András György; Csaba Szepesvári; András Antos

doi:10.1109/tac.2013.2292137

ScienceGate Book Chapters

JOURNAL ARTICLE

Online Markov Decision Processes Under Bandit Feedback

Gergely Neu András György Csaba Szepesvári András Antos

Year: 2014 Journal: IEEE Transactions on Automatic Control Vol: 59 (3)Pages: 676-691 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/tac.2013.2292137

Get Full-Text PDF Get Analytical Report

Abstract

International audience

Keywords:

Regret Hindsight bias Markov decision process Markov chain State (computer science) Computer science Markov process Function (biology) Mathematical economics Discrete mathematics Combinatorics Mathematical optimization Mathematics Artificial intelligence Algorithm Machine learning Statistics Psychology

Metrics

102

Cited By

4.88

FWCI (Field Weighted Citation Impact)

Refs

0.95

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Advanced Bandit Algorithms Research

Social Sciences → Decision Sciences → Management Science and Operations Research

Reinforcement Learning in Robotics

Physical Sciences → Computer Science → Artificial Intelligence

Optimization and Search Problems

Physical Sciences → Computer Science → Computer Networks and Communications

Online Markov Decision Processes Under Bandit Feedback

Abstract

Metrics

Citation History

Topics

Related Documents

Online Markov Decision Processes

An ϵ-Greedy Multiarmed Bandit Approach to Markov Decision Processes

PAC Bounds for Multi-armed Bandit and Markov Decision Processes

Markov decision processes under ambiguity

Markov decision processes under ambiguity