草庐IT

强化学习-学习笔记7 | Sarsa算法原理与推导

Sarsa算法是TD算法的一种,之前没有严谨推导过TD算法,这一篇就来从数学的角度推导一下Sarsa算法。注意,这部分属于TD算法的延申。7.Sarsa算法7.1推导TDtarget推导:Derive。这一部分就是Sarsa最重要的内核。折扣回报:$U_t=R_t+\gammaR_{t+1}+\gamma^2R_{t+2}+\gamma^3R_{t+3}+\cdots\\quad={R_t}+\gamma\cdotU_{t+1}$即将\(R_{t+1}\)之后都提出一个\(\gamma\)项,后面括号中的式子意义正为\(U_{t+1}\)通常认为奖励\(R_t\)依赖于t时刻的状态\(S_t\

强化学习-学习笔记5 | AlphaGo

本文不是论文阅读笔记,只是一个学习笔记,重在理解,在严谨程度上可能稍差。AlphaGo论文指路:MasteringthegameofGowithdeepneuralnetworksandtreesearch.Nature,2016.https://www.nature.com/articles/nature16961MasteringthegameofGowithouthumanknowledge.Nature,2017.https://www.nature.com/articles/nature242705.AlphaGo5.1围棋介绍如果用强化学习的语言,围棋如何表达:标准的围棋盘是一个1

强化学习-学习笔记4 | Actor-Critic

Actor-Critic是价值学习和策略学习的结合。Actor是策略网络,用来控制agent运动,可以看做是运动员。Critic是价值网络,用来给动作打分,像是裁判。4.Actor-Critic4.1价值网络与策略网络构建a.原理介绍状态价值函数:$V_\pi(s)=\sum_{{a}}\pi({a}|{s})\cdotQ_\pi({s},{a})$(离散情况,如果是连续的需要换成定积分)V是动作价值函数\(Q_\pi\)的期望,\(\pi({s}|{a})\)策略函数控制agent做运动,\(Q_\pi({s},{a})\)价值函数评价动作好坏。但是上述这两个函数我们都不知道,但是可以分别用

强化学习-学习笔记3 | 策略学习

Policy-BasedReinforcementLearning.策略学习。本讲用一个神经网络来近似policy函数,即PolicyNetwork,策略网络。3.策略学习3.1策略函数我们回顾一下策略函数PolicyFunction:策略函数\(\pi(a|s)\)是一个概率密度函数(PDF),输入时当前状态s,输出为一个概率分布,表征每个action的概率,拿到策略函数输出的概率密度后,agent面向所有动作做一次随机抽样,但各个动作的概率不同。策略学习的思路即,有了合适的策略函数,我们就能很好的控制agent自动地运动。问题与价值学习的相近:我们事先并不知道这样一个策略函数,我们如何得到

强化学习-学习笔记2 | 价值学习

Value-BasedReinforcementLearning:价值学习2.价值学习2.1DeepQ-NetworkDQN其实就是用一个神经网络来近似\(Q*\)函数。agent的目标是打赢游戏,如果用强化学习的语言来讲,就是在游戏结束的时候拿到的奖励总和Rewards越大越好。a.Q-starFunction问题:假设知道了\(Q^*(s,a)\)函数,哪个是最好的动作?显然,最好的动作是\(a^*=\mathop{argmax}\limits_{a}Q^*(s,a)\),\(Q^*(s,a)\)可以给每个动作打分,就像一个先知,能告诉你每个动作带来的平均回报,选平均回报最高的那个动作。但

强化学习-学习笔记1 | 基础概念

1.基本概念1.1概率论的基础知识a.随机变量概念:是一个未知的量,值是由随机事件结果来决定的。使用大写X来表示随机变量如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率使用小写x来表示随机变量X的观测值,只是表示一个数,没有随机性,如下面观测到三次抛硬币的结果观测值:当随机事件结束,会表征出一个结果,比如硬币落地后是正/反面朝上x1=0x2=1x3=1b.概率密度函数ProbabilityDensityFunction,PDF.意义:随机变量再某个确定的取值点附近的可能性。举例理解:连续分布:如高斯分布这个连续分布\[p(x)=\frac{1}{\sqrt{2\pi\sigma^2

新蔬菜专题

公式\[\sum\binom{2j}{j}\binom{2i-2j}{2j}=4^i\]\[\prod[w_i=1]={1\over2^n}\sum\limits_S\Big(\prod\limits_{j\inS}w_j\Big)\(w_i=\pm1)\]\[FWT(f)=g\Longleftrightarrowg_S=\sum\limits_T(-1)^{|S\capT|}f_T\texttt{可以倒着用}\]\[\prod{1\over1-a_iz}=\sumc_i{1\over1-a_iz}\Longleftrightarrowc_i={1\over\prod\limits_{j\ne

推荐系统-协同过滤在Spark中的实现

作者:vivo互联网服务器团队-TangShutao现如今推荐无处不在,例如抖音、淘宝、京东App均能见到推荐系统的身影,其背后涉及许多的技术。本文以经典的协同过滤为切入点,重点介绍了被工业界广泛使用的矩阵分解算法,从理论与实践两个维度介绍了该算法的原理,通俗易懂,希望能够给大家带来一些启发。笔者认为要彻底搞懂一篇论文,最好的方式就是动手复现它,复现的过程你会遇到各种各样的疑惑、理论细节。一、背景1.1引言在信息爆炸的二十一世纪,人们很容易淹没在知识的海洋中,在该场景下搜索引擎可以帮助我们迅速找到我们想要查找的内容。在电商场景,如今的社会物质极大丰富,商品琳琅满目,种类繁多。消费者很容易挑花眼

OI-note

版权声明:仅供学习。持续更新中...也算是个人学习的监督与激励吧。OI路漫漫,且行且珍惜。OI太颓了,模拟赛都打不动,班级全是大佬。算法综合\(Algorithm\)杂题综合Index1:WhilemovingtoanewcompoundtheByteotianInstituteofExperimentalPhysicshasencounteredalogisticalproblem-thetransferofitsvastcollectionofprecisionweightsturnedouttobenon-trivial.TheInstitutehasacertainnumberofco

「杂题乱写」AtCoderDP26 题

「杂题乱写」AtCoderDP26题\(\text{AtCoderDP26}\)题题单。前言最近听说\(\text{AtCoder}\)上有个\(\text{DP26}\)题挺好的,于是向@\(\text{SoyTony}\)要了题单并开始做,希望可以加强我的DP能力。果然我还是爱DP的。预计暑假集训结束前正好做完,希望能完成这个\(\text{flag}\)。开头的题比较简单,就不写太多了。2022/08/11。寒假开始前做完还差不多其实就剩三个题了,但咕了四个月。2022/12/25正文A:Frog1思路\[f_{i}=\min(f_{i-1}+\left|h_i-h_{i-1}\righ