深入理解强化学习——多臂赌博机：梯度赌博机算法的基础知识

来自网友在路上 190890提问提问时间：2023-11-09 20:31:53阅读次数： 90

最佳答案问答题库908位专家为你答疑解惑

到目前为止，我们已经探讨了评估动作价值的方法，并使用这些估计值来选择动作。这通常是一个好方法，但并不是唯一可使用的方法。我们针对每个动作 $a$ 考虑学习一个数值化的偏好函数 $H_t(a)$ 。偏好函数越大，动作就越频繁地被选择，但偏好函数的概念并不是从“收益"的意义上提出的。只有一个动作对另一个动作的相对偏好才是重要的，如果我们给每一个动作的偏好函数都加上1000，那么对于按照如下Softmax分布（吉布斯或玻尔兹曼分布）确定的动作概率没有任何影响：
$\text{Pr}\{A_t=a\}=\frac{e^{H_t(a)}}{\sum_{i=1}^ke^{H_t(i)}}=\pi_t(a)$

其中， $\pi_t(a)$ 是一个新的且重要的定义，用来表示动作 $a$ 在时刻时被选择的概率。所有偏好函数的初始值都是一样的（如： $\forall A:H_1(a)=0$ ），所以每个动作被选择的概率是相同的。

基于随机梯度上升的思想，本文提出了一种自然学习算法。在每个步骤中，在选择动作 $A_t$ 并获得收益 $R_t$ 之后，偏好函数将会按如下方式更新：
$\begin{aligned} H_{t+1}(A_t)&=H_t(A_t)+\alpha(R_t-\bar{R_t})(1-\pi_t(A_t)) \\ H_{t+1}(a)&=H_t(a)-\alpha(R_t-\bar{R_t})\pi_t(a) \end{aligned}\quad ,\forall a\neq A_t$

其中， $\alpha$ 是一个大于0的数，表示步长。 $R_t\in R$ 是在时刻 $t$ 内所有收益的平均值，可以按文章《深入理解强化学习——多臂赌博机：增量式实现》所述逐步计算，若是非平稳问题，则可以参考文章《深入理解强化学习——多臂赌博机：非平稳问题》。 $\bar{R_t}$ 作为比较收益的一个基准项。如果收益高于它，那么在未来选择动作的概率就会增加，反之概率就会降低，未选择的动作被选择的概率上升。

下图展示了在一个10臂测试平台问题的变体上采用梯度赌博机算法的结果，在这个问题中，它们真实的期望收益是按照平均值为 $+ 4$ 而不是 $0$ （方差与之前相同）的正态分布来选择的。所有收益的这种变化对梯度赌博机算法没有任何影响，因为收益基谁项计它可以马上适应新的收益水平。如果没有基准项（即把 $\bar{R_t}$ 设为常数0），那么性能将显著降低，如图所示：

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"深入理解强化学习——多臂赌博机：梯度赌博机算法的基础知识"：http://eshow365.cn/6-36509-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: Nodejs 第十八章（util）
下一篇: TikTok shop美国小店适合哪些人做？附常见运营问题解答

晴海小常识分享

晴海小常识分享

深入理解强化学习——多臂赌博机：梯度赌博机算法的基础知识

最佳答案问答题库908位专家为你答疑解惑

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

深入理解强化学习——多臂赌博机：梯度赌博机算法的基础知识

最佳答案 问答题库908位专家为你答疑解惑

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库908位专家为你答疑解惑