inLine_草庐IT

强化学习-学习笔记15 | 连续控制

本系列的完结篇，介绍了连续控制情境下的强化学习方法，确定策略DPG和随机策略AC算法。15.连续控制15.1动作空间离散动作空间\(Action\space\\mathcal{A}={left,right,up}\)比如超级玛丽游戏中的向上\向左\向右；此前博文讨论的，都是离散的控制，动作有限。连续动作空间\(Action\space\\mathcal{A}=[0°,360°]×[0°,180°]\)比如机械臂，如果具有两个运动关节：价值网络DQN可以解决离散动作控制的问题，因为DQN输出的是有限维度的向量。策略网络也同样。所以此前的方法不能简单照搬到连续控制。要想应用到连续控制上，可以采用连

笔记学习 span inline class 人工智能

CTC算法详解

以语音识别为例，如果现在有一个包含剪辑语音以及相应文本的数据集，如何将语音片段与文本字符一一对应，是训练语音识别器面临的首要问题。为了解决上述问题，我们制定简单的规则，如每个字符对应十个输入。考虑到不同的人说话的语速有区别，这样的规则并不具备泛化能力。当然，我们也可以手动的对齐每个字符在音频中的位置。这种方法得到的数据对于模型的训练非常友好，但是这种做法非常耗费人力物力。这个问题同样也存在于其他序列识别的任务中，如图片中的文本识别。 CTC（ConnectionistTemporalClassification）正是这种不知道输入输出是否对齐的情况下使用的算法，所以CTC适合语音识别和文

详解 CTC span inline class 人工智能

强化学习-学习笔记14 | 策略梯度中的 Baseline

本篇笔记记录学习在策略学习中使用Baseline，这样可以降低方差，让收敛更快。14.策略学习中的Baseline14.1Baseline推导在策略学习中，我们使用策略网络\(\pi(a|s;\theta)\)控制agent，状态价值函数\(V_\pi(s)=\mathbb{E}_{A\sim\pi}[Q_\pi(s,A)]=\sum\limits_{a}\pi(a|s;\theta)\cdotQ_\pi(a,s)\)策略梯度：\(\frac{\partial\V_\pi(s)}{\partial\\theta}=\mathbb{E}_{A\sim\pi}[\frac{\partialln\p

Baseline 笔记 span inline class 人工智能

浅析拉格朗日乘数法及其对偶问题

拉格朗日乘数(LagrangeMultipliers)法在数学最优问题中，拉格朗日乘数法（以数学家约瑟夫·路易斯·拉格朗日命名）是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n个变量与k个约束条件的最优化问题转换为一个有n+k个变量的方程组的极值问题，其变量不受任何约束。这种方法引入了一种新的标量未知数，即拉格朗日乘数：约束方程的梯度（gradient）的线性组合里每个向量的系数。此方法的证明牵涉到偏微分，全微分或链法，从而找到能让设出的隐函数的微分为零的未知数的值。引入问题给定一个函数：\(z=f(x,y)\)如何求其极值点呢？显然根据多元函数求极值定理(必

拉格浅析 span inline class 人工智能

错排问题详解

错排问题（Derangement）概念释义又叫错位排列、重排，即使一个排列所有的元素都不在原来的位置上。错排问题是组合数学发展史上的一个重要问题，错排数也是一项重要的数。令\({a_k}(1\leqk\leqn)\)是\(n,n\epsilonN\)的一个错排，如果每个元素都不在其对应下标的位置上，即\(a_k\neqk\)，那么这种排列称为错位排列，或错排、重排（Derangement）。————————摘自《百度百科》简要分析我们来看一个最为经典的错排问题，信封问题：共有\(n\)张信和\(n\)个信封，假设所有信都装错了信封，共有多少种情况？我们先定义\(f(n)\)为当有\(n\)个信

详解错排 span inline class C++