草庐IT

强化学习-学习笔记15 | 连续控制

本系列的完结篇,介绍了连续控制情境下的强化学习方法,确定策略DPG和随机策略AC算法。15.连续控制15.1动作空间离散动作空间\(Action\space\\mathcal{A}={left,right,up}\)比如超级玛丽游戏中的向上\向左\向右;此前博文讨论的,都是离散的控制,动作有限。连续动作空间\(Action\space\\mathcal{A}=[0°,360°]×[0°,180°]\)比如机械臂,如果具有两个运动关节:价值网络DQN可以解决离散动作控制的问题,因为DQN输出的是有限维度的向量。策略网络也同样。所以此前的方法不能简单照搬到连续控制。要想应用到连续控制上,可以采用连

CTC算法详解

  以语音识别为例,如果现在有一个包含剪辑语音以及相应文本的数据集,如何将语音片段与文本字符一一对应,是训练语音识别器面临的首要问题。为了解决上述问题,我们制定简单的规则,如每个字符对应十个输入。考虑到不同的人说话的语速有区别,这样的规则并不具备泛化能力。当然,我们也可以手动的对齐每个字符在音频中的位置。这种方法得到的数据对于模型的训练非常友好,但是这种做法非常耗费人力物力。这个问题同样也存在于其他序列识别的任务中,如图片中的文本识别。  CTC(ConnectionistTemporalClassification)正是这种不知道输入输出是否对齐的情况下使用的算法,所以CTC适合语音识别和文

强化学习-学习笔记14 | 策略梯度中的 Baseline

本篇笔记记录学习在策略学习中使用Baseline,这样可以降低方差,让收敛更快。14.策略学习中的Baseline14.1Baseline推导在策略学习中,我们使用策略网络\(\pi(a|s;\theta)\)控制agent,状态价值函数\(V_\pi(s)=\mathbb{E}_{A\sim\pi}[Q_\pi(s,A)]=\sum\limits_{a}\pi(a|s;\theta)\cdotQ_\pi(a,s)\)策略梯度:\(\frac{\partial\V_\pi(s)}{\partial\\theta}=\mathbb{E}_{A\sim\pi}[\frac{\partialln\p

浅析拉格朗日乘数法及其对偶问题

拉格朗日乘数(LagrangeMultipliers)法  在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n个变量与k个约束条件的最优化问题转换为一个有n+k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。此方法的证明牵涉到偏微分,全微分或链法,从而找到能让设出的隐函数的微分为零的未知数的值。引入问题给定一个函数:\(z=f(x,y)\)如何求其极值点呢?显然根据多元函数求极值定理(必

错排问题详解

错排问题(Derangement)概念释义又叫错位排列、重排,即使一个排列所有的元素都不在原来的位置上。错排问题是组合数学发展史上的一个重要问题,错排数也是一项重要的数。令\({a_k}(1\leqk\leqn)\)是\(n,n\epsilonN\)的一个错排,如果每个元素都不在其对应下标的位置上,即\(a_k\neqk\),那么这种排列称为错位排列,或错排、重排(Derangement)。————————摘自《百度百科》简要分析我们来看一个最为经典的错排问题,信封问题:共有\(n\)张信和\(n\)个信封,假设所有信都装错了信封,共有多少种情况?我们先定义\(f(n)\)为当有\(n\)个信

强化学习-学习笔记15 | 连续控制

本系列的完结篇,介绍了连续控制情境下的强化学习方法,确定策略DPG和随机策略AC算法。15.连续控制15.1动作空间离散动作空间\(Action\space\\mathcal{A}={left,right,up}\)比如超级玛丽游戏中的向上\向左\向右;此前博文讨论的,都是离散的控制,动作有限。连续动作空间\(Action\space\\mathcal{A}=[0°,360°]×[0°,180°]\)比如机械臂,如果具有两个运动关节:价值网络DQN可以解决离散动作控制的问题,因为DQN输出的是有限维度的向量。策略网络也同样。所以此前的方法不能简单照搬到连续控制。要想应用到连续控制上,可以采用连

CTC算法详解

  以语音识别为例,如果现在有一个包含剪辑语音以及相应文本的数据集,如何将语音片段与文本字符一一对应,是训练语音识别器面临的首要问题。为了解决上述问题,我们制定简单的规则,如每个字符对应十个输入。考虑到不同的人说话的语速有区别,这样的规则并不具备泛化能力。当然,我们也可以手动的对齐每个字符在音频中的位置。这种方法得到的数据对于模型的训练非常友好,但是这种做法非常耗费人力物力。这个问题同样也存在于其他序列识别的任务中,如图片中的文本识别。  CTC(ConnectionistTemporalClassification)正是这种不知道输入输出是否对齐的情况下使用的算法,所以CTC适合语音识别和文

强化学习-学习笔记14 | 策略梯度中的 Baseline

本篇笔记记录学习在策略学习中使用Baseline,这样可以降低方差,让收敛更快。14.策略学习中的Baseline14.1Baseline推导在策略学习中,我们使用策略网络\(\pi(a|s;\theta)\)控制agent,状态价值函数\(V_\pi(s)=\mathbb{E}_{A\sim\pi}[Q_\pi(s,A)]=\sum\limits_{a}\pi(a|s;\theta)\cdotQ_\pi(a,s)\)策略梯度:\(\frac{\partial\V_\pi(s)}{\partial\\theta}=\mathbb{E}_{A\sim\pi}[\frac{\partialln\p

浅析拉格朗日乘数法及其对偶问题

拉格朗日乘数(LagrangeMultipliers)法  在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n个变量与k个约束条件的最优化问题转换为一个有n+k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。此方法的证明牵涉到偏微分,全微分或链法,从而找到能让设出的隐函数的微分为零的未知数的值。引入问题给定一个函数:\(z=f(x,y)\)如何求其极值点呢?显然根据多元函数求极值定理(必

强化学习-学习笔记13 | 多智能体强化学习

这一篇介绍重头戏:多智能体强化学习。多智能体要比之前的单智能体复杂很多。但也更有意思。13.Multi-Agent-Reiforcement-Learning13.1多智能体关系设定合作关系FullCooperativeSetting竞争关系FullCompetitiveSetting合作和竞争的混合MixedCooperative&Competitive利己主义Self-Interesteda.完全合作关系agents的利益一致,合作去获取共同的回报;如工业机器人共同装配;b.完全竞争关系一个agent的收益是另一个agent的损失;如机器人搏斗,零和博弈;c.合作竞争混合既有合作,也有竞争