强化学习-学习笔记7 | Sarsa算法原理与推导

Clivia Du 2023-03-28 原文

Sarsa算法是 TD算法的一种，之前没有严谨推导过 TD 算法，这一篇就来从数学的角度推导一下 Sarsa 算法。注意，这部分属于 TD算法的延申。

7. Sarsa算法

7.1 推导 TD target

推导：Derive。

这一部分就是Sarsa 最重要的内核。

折扣回报：$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots \ \quad={R_t} + \gamma \cdot U_{t+1} $

即将$R_{t+1}$之后都提出一个 $\gamma$ 项，后面括号中的式子意义正为 $U_{t+1}$

通常认为奖励 $R_t$依赖于 t 时刻的状态 $S_t$ 与动作 $A_t$ 以及 t+1 时刻的状态 $S_{t+1}$。

当时对于为什么依赖于 $S_{t+1}$ 有疑问，我回去翻看了学习笔记1：https://www.cnblogs.com/Roboduster/p/16442003.html ，发现并强调了以下这一点：

“值得注意的是，这个 r1 是什么时候给的？是在状态 state s2 的时候给的。”

状态价值函数 $Q_\pi({s_t},{a_t}) = \mathbb{E}[U_t|{s_t},{a_t}]$ 是回报 $U_t$ 的期望；

用折扣回报的变换式，把$U_t$替换掉：$Q_\pi({s_t},{a_t}) = \mathbb{E}[{R_t} + \gamma \cdot U_{t+1} |{s_t}{a_t}]$
有两项期望，分解开：$= \mathbb{E}[{R_t} |{s_t},{a_t}] + \gamma \cdot\mathbb{E}[ U_{t+1} |{s_t},{a_t}]$

下面研究上式的第二项：$\mathbb{E}[ U_{t+1} |{s_t},{a_t}]$

其等于 $\mathbb{E}[ Q_\pi({s_{t+1}},{a_{t+1}}) |{s_t},{a_t}]$

Q 是 U 的期望：所以 $E(E[])=E()$，期望的期望还是原来的期望；这里是逆用这个性质。这么做是为了让等式两边都有 $Q_\pi$ 函数，如下：

于是便得到： $Q_\pi({s_t},{a_t}) =\mathbb{E}[{R_t} |{s_t},{a_t}] + \gamma\cdot\mathbb{E}[ Q_\pi({s_{t+1}},{a_{t+1}}) {s_t},{a_t}] \\ Q_\pi({s_t},{a_t})=\mathbb{E}[{R_t} + \gamma \cdot Q_\pi({S_{t+1}},{A_{t+1}})]$

右侧有一个期望，但直接求期望很困难，所以通常是对期望求蒙特卡洛近似。

$R_t$ 近似为观测到奖励$r_t$

$Q_\pi({S_{t+1}},{A_{t+1}})$用观测到的 $Q_\pi({s_{t+1}},{a_{t+1}})$ 来近似

得到蒙特卡洛近似值$\approx {r_t} + \gamma \cdot Q_\pi({s_{t+1}},{a_{t+1}})$

将这个值表示为 TD target $y_t$

TD learning 目标：让 $Q_\pi({s_t},{a_t}) $ 来接近部分真实的奖励 $y_t$。

$Q_\pi$ 完全是估计，而 $y_t$ 包含了一部分真实奖励，所以 $y_t$ 更可靠。

7.2 Sarsa算法过程

这是一种TD 算法。

a. 表格形式

如果我们想要学习动作价值 $Q_\pi({s_t},{a_t}) $，假设状态和动作都是有限的，可以画一个表来表示：

表每个元素代表一个动作价值；

用 Sarsa 算法更新表格，每次更新一个元素；

在表格形式中，每次观测到一个四元组$({s_t},{a_t},{r_t},{s_{t+1}})$，称为一个 transition
根据策略函数 $\pi$ 随机采样计算下一个动作，记作${a_{t+1}}\sim\pi(\cdot|{s_{t+1}})$；
计算TD target: $y_t = {r_t} + \gamma \cdot Q_\pi({s_{t+1}},{a_{t+1}})$，

前一部分是观测到的奖励，后面一部分是对未来动作的打分，$Q_\pi({s_{t+1}},{a_{t+1}})$ 可以通过查表得知。

表最开始是通过一定方式初始化的（比如随机），然后通过不断计算来更新表格。

通过查表，还知道$Q_\pi({s_{t}},{a_{t}})$的值，可以计算：
TD error：$\delta_t = Q_\pi({s_{t}},{a_{t}}) -y_t$；
最后用 $\delta_t$ 来更新：$Q_\pi({s_{t}},{a_{t}}) \leftarrow Q_\pi({s_{t}},{a_{t}}) - \alpha \cdot \delta_t$，并写入表格相应的位置

$\alpha $是学习率。通过TD error 更新，可以让 Q 更好的接近 $y_t$。

每一步中，Sarsa 算法用 $(s_t,a_T,r_t,s_{t+1},a_{t+1})$ 来更新 $Q_\pi$，sarsa，这就是算法名字的由来。

b. 神经网络形式

值得留意的是表格形式的假设：假设状态和动作都是有限的，而当状态和动作很多，表格就会很大，很难学习。

用神经网络-价值网络 $q({s},{a};w)$ 来近似$Q_\pi({s},{a})$，Sarsa算法可以训练这个价值网络。
1. actor-critic 那篇用过 Sarsa 算法，想不起来往下看：
2. q 和 Q 都与策略函数 $\pi$ 有关。
3. 网络参数 $\omega$ 初始时随机初始化，后续不断更新。

输入状态是 s ，输出就是所有动作的价值

actor-critic 方法中，q 作为 critic 用来评估 actor；用 sarsa 这一 TD 学习算法更新的价值网络。
TD target: $y_t = {r_t} + \gamma \cdot q({s_{t+1}},{a_{t+1}};w)$
TD error：$\delta_t = q({s_{t}},{a_{t}};w) - y_t$
Loss: $\delta_t ^2/2$，我们的目的是通过更新网络参数 w 来降低 Loss；
梯度：$\frac{\partial\delta_t ^2/2}{\partial w} = \delta_t \cdot \frac{\partial q({s_{t}},{a_{t}};w)}{\partial w}$
梯度下降更新 w：$$w \leftarrow w - \alpha \cdot \delta_t \cdot \frac{\partial q({s_{t}},{a_{t}};w)}{\partial w}$$

7.3 一些解惑 / 有什么不同

这一篇跟第二篇价值学习内容看似很接近，甚至在第四篇 actor-critic 中也有提及，可能会困惑这个第七篇有什么特别的，我也困惑了一会儿，然后我发现是自己的学习不够仔细：

第二篇和第四篇的价值网络学习方法并不同。虽然都用到了以TD target 为代表的TD 算法。但是两者的学习函数并不相同！

Sarsa算法学习动作价值函数 $Q_\pi(s,a)$

Actor-Critic 中的价值网络j就是用 Sarsa 训练的

而第二篇 DQN 中的 TD 学习是训练最优动作价值函数:
$Q ^*( s , a ) $

而这种方法在下一篇中很快会提及，这就是 Q-learning 方法。

参考：

TD算法总述

Sarsa算法及其代码

笔记 Sarsa span inline class 人工智能

有关强化学习-学习笔记7 | Sarsa算法原理与推导的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c