inLine

强化学习-学习笔记7 | Sarsa算法原理与推导

Sarsa算法是TD算法的一种，之前没有严谨推导过TD算法，这一篇就来从数学的角度推导一下Sarsa算法。注意，这部分属于TD算法的延申。7.Sarsa算法7.1推导TDtarget推导：Derive。这一部分就是Sarsa最重要的内核。折扣回报：$U_t=R_t+\gammaR_{t+1}+\gamma^2R_{t+2}+\gamma^3R_{t+3}+\cdots\\quad={R_t}+\gamma\cdotU_{t+1}$即将$R_{t+1}$之后都提出一个$\gamma$项，后面括号中的式子意义正为$U_{t+1}$通常认为奖励$R_t$依赖于t时刻的状态\(S_t\

笔记 Sarsa span inline class 人工智能

强化学习-学习笔记5 | AlphaGo

本文不是论文阅读笔记，只是一个学习笔记，重在理解，在严谨程度上可能稍差。AlphaGo论文指路：MasteringthegameofGowithdeepneuralnetworksandtreesearch.Nature,2016.https://www.nature.com/articles/nature16961MasteringthegameofGowithouthumanknowledge.Nature,2017.https://www.nature.com/articles/nature242705.AlphaGo5.1围棋介绍如果用强化学习的语言，围棋如何表达：标准的围棋盘是一个1

AlphaGo 笔记 span inline class 人工智能

强化学习-学习笔记4 | Actor-Critic

Actor-Critic是价值学习和策略学习的结合。Actor是策略网络，用来控制agent运动，可以看做是运动员。Critic是价值网络，用来给动作打分，像是裁判。4.Actor-Critic4.1价值网络与策略网络构建a.原理介绍状态价值函数：$V_\pi(s)=\sum_{{a}}\pi({a}|{s})\cdotQ_\pi({s},{a})$(离散情况，如果是连续的需要换成定积分)V是动作价值函数$Q_\pi$的期望，$\pi({s}|{a})$策略函数控制agent做运动，$Q_\pi({s},{a})$价值函数评价动作好坏。但是上述这两个函数我们都不知道，但是可以分别用

Actor-Critic 笔记 span inline class 人工智能

强化学习-学习笔记3 | 策略学习

Policy-BasedReinforcementLearning.策略学习。本讲用一个神经网络来近似policy函数，即PolicyNetwork，策略网络。3.策略学习3.1策略函数我们回顾一下策略函数PolicyFunction：策略函数$\pi(a|s)$是一个概率密度函数（PDF），输入时当前状态s，输出为一个概率分布，表征每个action的概率，拿到策略函数输出的概率密度后，agent面向所有动作做一次随机抽样，但各个动作的概率不同。策略学习的思路即，有了合适的策略函数，我们就能很好的控制agent自动地运动。问题与价值学习的相近：我们事先并不知道这样一个策略函数，我们如何得到

笔记学习 span inline class 人工智能

强化学习-学习笔记2 | 价值学习

Value-BasedReinforcementLearning:价值学习2.价值学习2.1DeepQ-NetworkDQN其实就是用一个神经网络来近似$Q*$函数。agent的目标是打赢游戏，如果用强化学习的语言来讲，就是在游戏结束的时候拿到的奖励总和Rewards越大越好。a.Q-starFunction问题：假设知道了$Q^*(s,a)$函数，哪个是最好的动作？显然，最好的动作是$a^*=\mathop{argmax}\limits_{a}Q^*(s,a)$，$Q^*(s,a)$可以给每个动作打分，就像一个先知，能告诉你每个动作带来的平均回报，选平均回报最高的那个动作。但

笔记学习 span inline class 人工智能

强化学习-学习笔记1 | 基础概念

1.基本概念1.1概率论的基础知识a.随机变量概念：是一个未知的量，值是由随机事件结果来决定的。使用大写X来表示随机变量如在抛硬币之前我是不知道硬币结果是什么，但是我知道事件的概率使用小写x来表示随机变量X的观测值，只是表示一个数，没有随机性，如下面观测到三次抛硬币的结果观测值：当随机事件结束，会表征出一个结果，比如硬币落地后是正/反面朝上x1=0x2=1x3=1b.概率密度函数ProbabilityDensityFunction，PDF.意义：随机变量再某个确定的取值点附近的可能性。举例理解：连续分布：如高斯分布这个连续分布\[p(x)=\frac{1}{\sqrt{2\pi\sigma^2

笔记学习 span inline class 人工智能

新蔬菜专题

公式\[\sum\binom{2j}{j}\binom{2i-2j}{2j}=4^i\]\[\prod[w_i=1]={1\over2^n}\sum\limits_S\Big(\prod\limits_{j\inS}w_j\Big)\(w_i=\pm1)\]\[FWT(f)=g\Longleftrightarrowg_S=\sum\limits_T(-1)^{|S\capT|}f_T\texttt{可以倒着用}\]\[\prod{1\over1-a_iz}=\sumc_i{1\over1-a_iz}\Longleftrightarrowc_i={1\over\prod\limits_{j\ne

新专题 span inline class C++

OI-note

版权声明：仅供学习。持续更新中...也算是个人学习的监督与激励吧。OI路漫漫，且行且珍惜。OI太颓了，模拟赛都打不动，班级全是大佬。算法综合$Algorithm$杂题综合Index1:WhilemovingtoanewcompoundtheByteotianInstituteofExperimentalPhysicshasencounteredalogisticalproblem-thetransferofitsvastcollectionofprecisionweightsturnedouttobenon-trivial.TheInstitutehasacertainnumberofco

OI-note note span int inline 算法与数据结构

「杂题乱写」AtCoderDP26 题

「杂题乱写」AtCoderDP26题$\text{AtCoderDP26}$题题单。前言最近听说$\text{AtCoder}$上有个$\text{DP26}$题挺好的，于是向@$\text{SoyTony}$要了题单并开始做，希望可以加强我的DP能力。果然我还是爱DP的。预计暑假集训结束前正好做完，希望能完成这个$\text{flag}$。开头的题比较简单，就不写太多了。2022/08/11。寒假开始前做完还差不多其实就剩三个题了，但咕了四个月。2022/12/25正文A:Frog1思路\[f_{i}=\min(f_{i-1}+\left|h_i-h_{i-1}\righ

AtCoderDP 26 span inline class 算法与数据结构

68 69 707172 73 74