Shortcuts

QRDQN

概述

QR (Quantile Regression, 分位数回归) DQN 在 Distributional Reinforcement Learning with Quantile Regression 中被提出,它继承了学习 q 值分布的思想。与使用离散原子来近似分布密度函数不同, QRDQN 直接回归 q 值的一组离散分位数。

核心要点

  1. QRDQN 是一种 无模型(model-free)基于值(value-based) 的强化学习算法。

  2. QRDQN 仅支持 离散动作空间

  3. QRDQN 是一种 异策略(off-policy) 算法。

  4. 通常情况下, QRDQN 使用 eps-greedy多项式采样 进行探索。

  5. QRDQN 可以与循环神经网络 (RNN) 结合使用。

关键方程或关键框图

C51 (Categorical 51) 使用N个固定位置来近似其概率分布,并调整它们的概率,而 QRDQN 将固定的均匀概率分配给N个可调整的位置。基于这一点, QRDQN 使用分位数回归来随机调整分布的位置,以使其与目标分布的 Wasserstein 距离最小化。

分位数回归损失是一种非对称凸损失函数,用于量化回归问题。对于给定的分位数 \(\tau \in [0, 1]\) ,该损失函数以权重 \(\tau\) 惩罚过估计误差,以权重 \(1−\tau\) 惩罚欠估计误差. 对于一个分布 \(Z\) 和给定的分位数 \(\tau\),分位数函数 \(F_Z^{−1}(\tau)\) 的值可以被描述为分位数回归损失的最小化器:

\[\begin{split}\begin{array}{r} \mathcal{L}_{\mathrm{QR}}^{\tau}(\theta):=\mathbb{E}_{\hat{z} \sim Z}\left[\rho_{\tau}(\hat{Z}-\theta)\right], \text { where } \\ \rho_{\tau}(u)=u\left(\tau-\delta_{\{u<0\}}\right), \forall u \in \mathbb{R} \end{array}\end{split}\]

上述提到的损失在零点处不平滑,这可能会限制在使用非线性函数逼近时的性能。因此,在 QRDQN 的 Bellman 更新过程中应用了一种修改后的分位数 Huber 损失, 称为 quantile huber loss 损失(即伪代码中的方程式10)。

\[\rho^{\kappa}_{\tau}(u)=L_{\kappa}(u)\lvert \tau-\delta_{\{u<0\}} \rvert\]

在这里 \(L_{\kappa}\) 是 Huber 损失.

Note

与 DQN 相比, QRDQN 具有以下区别:

  1. 神经网络架构: QRDQN 的输出层大小为M x N,其中M是离散动作空间的大小,N是一个超参数,表示分位数目标的数量。

  2. 使用分位数 Huber 损失替代 DQN 损失函数。

  3. 在原始的 QRDQN 论文中,将 RMSProp 优化器替换为 Adam 优化器。而在 DI-engine 中,我们始终使用 Adam 优化器。

伪代码

../_images/QRDQN.png

扩展

  • QRDQN可以与以下技术相结合使用:

    • 优先经验回放 (Prioritized Experience Replay)

    • 多步时序差分 (TD)损失

    • 双目标网络 (Double Target Network)

    • 循环神经网络 (RNN)

实现

Tip

在我们的基准结果中, QRDQN 使用与 DQN 相同的超参数,除了 QRDQN 的专属超参数——“分位数的数量” ,该超参数经验性地设置为32。

QRDQN 的默认配置可以如下定义:

QRDQN 使用的网络接口可以如下定义:

QRDQN 的贝尔曼更新在ding/rl_utils/td.py模块的qrdqn_nstep_td_error函数中实现。

基准

Benchmark and comparison of QRDQN algorithm

environment

best mean reward

evaluation results

config link

comparison

Pong
(PongNoFrameskip-v4)

20

../_images/qrdqn_pong.png

config_link_p

Tianshou (20)
Qbert
(QbertNoFrameskip-v4)

18306

../_images/qrdqn_qbert.png

config_link_q

Tianshou (14990)
SpaceInvaders
(SpaceInvadersNoFrame skip-v4)

2231

../_images/qrdqn_spaceinvaders.png

config_link_s

Tianshou (938)

P.S.:

  1. 上述结果是通过在五个不同的随机种子 (0, 1, 2, 3, 4)上运行相同的配置获得的。

  2. 对于像 QRDQN 这样的离散动作空间算法,通常使用 Atari 环境集进行测试(包括子环境 Pong ) ,而 Atari 环境通常通过训练10M个环境步骤的最高平均奖励来评估。有关 Atari 的更多详细信息, 请参阅 Atari Env Tutorial .

参考文献

(QRDQN) Will Dabney, Mark Rowland, Marc G. Bellemare, Rémi Munos: “Distributional Reinforcement Learning with Quantile Regression”, 2017; arXiv:1710.10044. https://arxiv.org/pdf/1710.10044

其他开源实现


© Copyright 2021, OpenDILab Contributors. Revision ae2e42a4.

Built with Sphinx using a theme provided by Read the Docs.
Read the Docs v: latest
Versions
latest
Downloads
On Read the Docs
Project Home
Builds

Free document hosting provided by Read the Docs.