WHCSRL 技术网

强化学习笔记3---policy gradient基本概念

本文章为学习李宏毅老师视频的学习笔记,视频链接

在这里插入图片描述
调整theta,就可以调整选择trajectory的概率
在这里插入图片描述
只能求出该路径奖励的期望值,方法是穷举所有路径并将奖励值加和
在这里插入图片描述
这么复杂的推导,咱们就是说瞟一眼就可以了,就是求reward的梯度
在这里插入图片描述
theta更新过程, η eta η 是学习率
在这里插入图片描述
sample的概念。 R ( τ n ) R( au ^n) R(τn) 是整场游戏采取 a a a的奖励
在这里插入图片描述
为了增加sample的正确率,可以将某些reward改为负。增添加baseline来实现,即 b b b。最简单的方式即 b = E ( R ( τ ) ) b=E(R( au)) b=E(R(τ))

讲到45:48然后没听了,有缘再见家人们

推荐阅读