Q-Learning

Bias-Corrected Q-Learning With Multistate Extension

Q-learning is a sample-based model-free algorithm that solves Markov decision problems asymptotically, but in finite time, it can …

Donghun Lee, Warren B. Powell