李宏_草庐IT

全球名校AI课程库（43）| 李宏毅 · 机器学习(&深度学习)课程『Machine Learning』

?课程学习中心|?CV课程合辑|?课程主页|?中英字幕视频|?项目代码解析课程介绍MachineLearning是台大李宏毅老师讲授的机器学习课程，是国语授课中最受欢迎的AI课程之一，课程内容具备很好的前沿度，覆盖了机器学习与深度学习基础知识与研究界关心的新方向进展（损失函数、优化、神经网络、自注意力、transformer、GAN、领域自适应、强化学习、元学习）。李宏毅老师的课程通常辅以活泼贴近生活的案例来讲解，对大家理解和学习相关知识有很好的帮助。课程主题课程官网发布了课程主题，ShowMeAI对其进行了翻译。Whengradientissmall（局部最小值与鞍点）Errorsurfac

李宏 amp strong showmeai https 人工智能

全球名校AI课程库（43）| 李宏毅 · 机器学习(&深度学习)课程『Machine Learning』

?课程学习中心|?CV课程合辑|?课程主页|?中英字幕视频|?项目代码解析课程介绍MachineLearning是台大李宏毅老师讲授的机器学习课程，是国语授课中最受欢迎的AI课程之一，课程内容具备很好的前沿度，覆盖了机器学习与深度学习基础知识与研究界关心的新方向进展（损失函数、优化、神经网络、自注意力、transformer、GAN、领域自适应、强化学习、元学习）。李宏毅老师的课程通常辅以活泼贴近生活的案例来讲解，对大家理解和学习相关知识有很好的帮助。课程主题课程官网发布了课程主题，ShowMeAI对其进行了翻译。Whengradientissmall（局部最小值与鞍点）Errorsurfac

李宏 amp strong showmeai https 人工智能

【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式：\[L(h^{train},D_{all})-h(h^{all},D_{all})\leq\delta\]那么训练集\(D_{train}\)应该满足的条件为：\[\forallh\inH,\lvertL(h,D_{train})-L(h,D_{all})\rvert\leq\frac{\delta}{2}\]即对于假设空间中的任何模型在训练集上的误差和在整个数据空间上的误差之间的误差都小于某个值。推导过程如下：\[L(h^{train},D_

李宏鱼与熊掌 strong 训练 span 人工智能

【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式：\[L(h^{train},D_{all})-h(h^{all},D_{all})\leq\delta\]那么训练集\(D_{train}\)应该满足的条件为：\[\forallh\inH,\lvertL(h,D_{train})-L(h,D_{all})\rvert\leq\frac{\delta}{2}\]即对于假设空间中的任何模型在训练集上的误差和在整个数据空间上的误差之间的误差都小于某个值。推导过程如下：\[L(h^{train},D_

李宏鱼与熊掌 strong 训练 span 人工智能

【机器学习】李宏毅——何为反向传播

回顾一下梯度下降的过程：假设当前神经网络有以下参数\(\theta=\{\omega_1,\omega_2,...,b_1,b_2,...\}\)，那么梯度下降就是计算损失函数对于每个参数的梯度，然后按照梯度更新公式来更新每一个参数。但在深度学习中参数量巨大，这样计算时间过长，因此反向传播就是来高效就计算出损失函数对于每个参数的梯度的。注意反向传播并不是一个和梯度下降不同的训练方法，它只是能够更有效率就计算出损失函数对参数的梯度，来帮助梯度下降过程。反向传播损失函数可以如下表示：\[L(\theta)=\sum_{n=1}^NC^n(\theta)\]其中\(C^n(\theta)\)表示第n

李宏 mdash partial strong 求导人工智能

【机器学习】李宏毅——何为反向传播

回顾一下梯度下降的过程：假设当前神经网络有以下参数\(\theta=\{\omega_1,\omega_2,...,b_1,b_2,...\}\)，那么梯度下降就是计算损失函数对于每个参数的梯度，然后按照梯度更新公式来更新每一个参数。但在深度学习中参数量巨大，这样计算时间过长，因此反向传播就是来高效就计算出损失函数对于每个参数的梯度的。注意反向传播并不是一个和梯度下降不同的训练方法，它只是能够更有效率就计算出损失函数对参数的梯度，来帮助梯度下降过程。反向传播损失函数可以如下表示：\[L(\theta)=\sum_{n=1}^NC^n(\theta)\]其中\(C^n(\theta)\)表示第n

李宏 mdash partial strong 求导人工智能

【机器学习】李宏毅——机器学习基本概念简介

机器学习就是找到一个我们人类无法写出来的函数来完成各种任务机器学习的任务回归Regression：输出是一个数值例如：预测未来某一个时间PM2.5数值分类Classification：输出是选项例如：输出是否是电子邮件，Alphago输出为棋盘的某一个位置结构化学习StructuredLearning：产生一个有结构的物件，例如产生一篇文章，写一段文字机器学习的步骤Step1、写出一个带有未知参数的函数表达式（FunctionwithUnknownParameters）：选用一个可能的函数表达式(Model)来表达输入与输出的关系，其中的未知参数称为domainknowledgeStep2、D

李宏 mdash strong pic_center img 人工智能

【机器学习】李宏毅——机器学习基本概念简介

机器学习就是找到一个我们人类无法写出来的函数来完成各种任务机器学习的任务回归Regression：输出是一个数值例如：预测未来某一个时间PM2.5数值分类Classification：输出是选项例如：输出是否是电子邮件，Alphago输出为棋盘的某一个位置结构化学习StructuredLearning：产生一个有结构的物件，例如产生一篇文章，写一段文字机器学习的步骤Step1、写出一个带有未知参数的函数表达式（FunctionwithUnknownParameters）：选用一个可能的函数表达式(Model)来表达输入与输出的关系，其中的未知参数称为domainknowledgeStep2、D

李宏 mdash strong pic_center img 人工智能

【机器学习】李宏毅——自注意力机制(Self-attention)

前面我们所讲的模型，输入都是一个向量，但有没有可能在某些场景中输入是多个向量，即一个向量集合，并且这些向量的数目并不是固定的呢？这一类的场景包括文字识别、语音识别、图网络等等。那么先来考虑输出的类型，如果对于输入是多个数目不定的向量，可以有以下这几种输出方式：每个向量对应一个输出：输出的数目与输入向量的数目一致，例如下图的词性识别、语调识别、状态识别等等：只有单个输出：这种应用于例如判断一段话的正负面作用、语音辨认说话者等等，如下图：机器自己决定输出多少个结果（seq2seq）：如翻译、语音转文字等等。SequenceLabeling(输入输出数目一致)最简单的思路当然是将每一个向量单独作为一

李宏 mdash strong pic_center img 人工智能

【机器学习】李宏毅——自注意力机制(Self-attention)

前面我们所讲的模型，输入都是一个向量，但有没有可能在某些场景中输入是多个向量，即一个向量集合，并且这些向量的数目并不是固定的呢？这一类的场景包括文字识别、语音识别、图网络等等。那么先来考虑输出的类型，如果对于输入是多个数目不定的向量，可以有以下这几种输出方式：每个向量对应一个输出：输出的数目与输入向量的数目一致，例如下图的词性识别、语调识别、状态识别等等：只有单个输出：这种应用于例如判断一段话的正负面作用、语音辨认说话者等等，如下图：机器自己决定输出多少个结果（seq2seq）：如翻译、语音转文字等等。SequenceLabeling(输入输出数目一致)最简单的思路当然是将每一个向量单独作为一

李宏 mdash strong pic_center img 人工智能