【动手学深度学习】2.4 ~ 2.7 节学习（微积分、自动求导、概率、查阅文档）

bringlu 2023-04-07 原文

2.4 微积分

2.4.3 梯度

梯度是一个多元函数所有变量偏导数的连接。具体而言：设函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) 的输入是一个 \(n\) 维向量 \(\boldsymbol{x} = [x_1, x_2, \cdots, x_n]^T\)，输出是一个标量。函数 \(f(\boldsymbol{x})\) 相对于 \(\boldsymbol{x}\) 的梯度是一个包含 \(n\) 个偏导数的向量：

\[\nabla_x f(\boldsymbol{x}) = [\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}]^T \]

其中，\(\nabla_x f(\boldsymbol{x})\) 在没有歧义时通常被 \(\nabla f(\boldsymbol{x})\) 取代。

假设 \(\boldsymbol{x}\) 为 \(n\) 维向量，在对多元函数求微分时经常使用以下规则：

对于所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\)，都有 \(\nabla_\boldsymbol{x} \boldsymbol{Ax} = \boldsymbol{A}^T\)；
对于所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\)，都有 \(\nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{A} = \boldsymbol{A}\)；
对于所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\)，都有 \(\nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{Ax} = (\boldsymbol{A} + \boldsymbol{A}^T) \boldsymbol{x}\)；
\(\nabla_x ||\boldsymbol{x}||^2 = \nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{x} = 2\boldsymbol{x}\)。

同样，对于任何矩阵 \(\boldsymbol{X}\)，都有 \(\nabla_\boldsymbol{X} ||\boldsymbol{X}||^2_F = 2\boldsymbol{X}\)。

2.4.4 链式法则

假设可微函数 \(y\) 有变量 \(u_1, u_2, \ldots, u_m\)，其中每个可微函数 \(u_i\) 都有变量 \(x_1, x_2, \ldots, x_n\)。

则

\[\frac{\mathrm{d}y}{\mathrm{d}x_i} = \frac{\mathrm{d}y}{\mathrm{d}u_1} \frac{\mathrm{d}u_1}{\mathrm{d}x_i} + \frac{\mathrm{d}y}{\mathrm{d}u_2} \frac{\mathrm{d}u_2}{\mathrm{d}x_i} + \cdots + \frac{\mathrm{d}y}{\mathrm{d}u_m} \frac{\mathrm{d}u_m}{\mathrm{d}x_i} \]

2.5 自动求导

2.5.1 一些简单的函数

x.requires_grad_(True) 表明 x 需要梯度，等价于 x = torch.arange(4.0, requires_grad=True)
x.grad 表示 x 的梯度
x.grad.zero_() 表示将 x 的梯度归零
y.backward() 将 y 的值反向传播，然后再 x.grad 即可看 x 的梯度。这个方法与 torch.autograd.grad() 差不多，但是，求高阶导数只能用后一种方法，原因在于 backward() 后 x 的一阶导已经占据了 x.grad 没有办法做清零或者再 backward() 了。而且，torch.autograd.grad() 中 create_graph 参数必须为 True
- 参数 retain_graph 表示是否保留计算图，因为正常为了保持速度，计算图会在反向传播完被销毁，把这个调成 True，计算图就不会被销毁，仍然可以反向传播。
- 参数 create_graph 表示是否创建反向图，有了反向图就可以再次求高阶导了。

2.5.2 非标量变量的反向传播

由于自动梯度实现张量对张量求梯度很麻烦几乎不可做，因此 PyTorch 中禁止了张量对张量求梯度。如果要张量对张量求梯度的话，最好将结果张量求和，例如调用 y.sum().backward()：

\[[\frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_1}, \frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_2}, \ldots, \frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_n}] = [\frac{\partial y_1}{\partial x_1} + \frac{\partial y_2}{\partial x_1} + \ldots + \frac{\partial y_n}{\partial x_1}, \frac{\partial y_1}{\partial x_2} + \frac{\partial y_2}{\partial x_2} + \ldots + \frac{\partial y_n}{\partial x_2}, \cdots, \frac{\partial y_1}{\partial x_n} + \frac{\partial y_2}{\partial x_n} + \ldots + \frac{\partial y_n}{\partial x_n}] \]

或者也可以给 backward () 传入 gradient 参数，如果要实现和上文一样的功能，可以调用 y.backward(torch.ones_like(y))，效果一样。参考 pytorch中backward函数的gradient参数作用、PyTorch 的 backward 为什么有一个 grad_variables 参数？这两篇文章。

假设 x 经过一番计算得到 y，那么 y.backward(w) 求的不是 y 对 x 的导数，而是 l = torch.sum(y*w) 对 x 的导数。w 可以视为 y 的各分量的权重，也可以视为遥远的损失函数 l 对 y 的偏导数（这正是函数说明文档的含义）。特别地，若 y 为标量，w 取默认值 1.0，才是按照我们通常理解的那样，求 y 对 x 的导数。

由于当 x, y 都为张量时，\(\nabla_{\boldsymbol{x}} \boldsymbol{y}\) 不好求，因此退而求其次，利用遥远的 loss 函数标量 l 来求 \(\nabla_{\boldsymbol{x}} l\)。不妨假设此时反向传播过程已经计算完毕了 \(\nabla_{\boldsymbol{y}} l = [\frac{\mathrm{d} l}{\mathrm{d} y_{1}}, \frac{\mathrm{d} l}{\mathrm{d} y_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} y_{n}}]\)，此时还有另一个 Jocabi 矩阵是关于张量 y 中每一个元素和张量 x 中每一个元素的关系的，可以简单地在这一步中利用梯度追踪求出它：

\[\begin{bmatrix} \frac{\mathrm{d} y_1}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_1}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_1}{\mathrm{d} x_{m}} \\ \frac{\mathrm{d} y_2}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_2}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_2}{\mathrm{d} x_{m}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\mathrm{d} y_n}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_n}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_n}{\mathrm{d} x_{m}} \\ \end{bmatrix} \]

于是，接下来利用这两个式子，就可以求出至关重要的 \(\nabla_{\boldsymbol{x}} l\) 了。

\[\nabla_{\boldsymbol{x}} l = [\frac{\mathrm{d} l}{\mathrm{d} x_{1}}, \frac{\mathrm{d} l}{\mathrm{d} x_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} x_{m}}] = [\frac{\mathrm{d} l}{\mathrm{d} y_{1}}, \frac{\mathrm{d} l}{\mathrm{d} y_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} y_{n}}] \begin{bmatrix} \frac{\mathrm{d} y_1}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_1}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_1}{\mathrm{d} x_{m}} \\ \frac{\mathrm{d} y_2}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_2}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_2}{\mathrm{d} x_{m}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\mathrm{d} y_n}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_n}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_n}{\mathrm{d} x_{m}} \\ \end{bmatrix} \]

可以发现，本质上讲，\(\nabla_{\boldsymbol{y}} l\) 就上文引用文本中的 w，或者说是 backward(gradient) 这个函数中的 gradient 参数。

2.5.3 分离计算

有时希望将某些计算移到记录的计算图之外。这里可以利用 u = y.detach() 将 y 视为一个常数，然后丢弃计算图中如何计算 y 的任何信息。换言之，梯度不会向后流经 u 到 x。

2.5.4 Python 控制流的梯度计算

即使构建函数的计算图需要通过 Python 控制流，也可以计算得到变量的梯度。

2.6 概率

调用下面的代码产生 \(x\) 个采样 \(n\) 个样本的张量。

import torch
from torch.distributions import multinomial
x = 5
n = 10
fair_probs = torch.ones([6]) / 6
multinomial.Multinomial(n, fair_probs).sample((x, ))

tensor([[1., 2., 2., 2., 1., 2.],
        [3., 2., 0., 2., 1., 2.],
        [2., 1., 2., 1., 2., 2.],
        [1., 3., 4., 1., 0., 1.],
        [2., 3., 2., 3., 0., 0.]])

2.7 查阅文档

2.7.1 查找模块中的所有函数和类

可以调用 dir() 函数来查找模块中的所有函数和类。例如：

import torch
print(dir(torch.distributions))

['AbsTransform', 'AffineTransform', 'Bernoulli', 'Beta', 'Binomial', 'CatTransform', 'Categorical', 'Cauchy', 'Chi2', 'ComposeTransform', 'ContinuousBernoulli', 'CorrCholeskyTransform', 'CumulativeDistributionTransform', 'Dirichlet', 'Distribution', 'ExpTransform', 'Exponential', 'ExponentialFamily', 'FisherSnedecor', 'Gamma', 'Geometric', 'Gumbel', 'HalfCauchy', 'HalfNormal', 'Independent', 'IndependentTransform', 'Kumaraswamy', 'LKJCholesky', 'Laplace', 'LogNormal', 'LogisticNormal', 'LowRankMultivariateNormal', 'LowerCholeskyTransform', 'MixtureSameFamily', 'Multinomial', 'MultivariateNormal', 'NegativeBinomial', 'Normal', 'OneHotCategorical', 'OneHotCategoricalStraightThrough', 'Pareto', 'Poisson', 'PowerTransform', 'RelaxedBernoulli', 'RelaxedOneHotCategorical', 'ReshapeTransform', 'SigmoidTransform', 'SoftmaxTransform', 'SoftplusTransform', 'StackTransform', 'StickBreakingTransform', 'StudentT', 'TanhTransform', 'Transform', 'TransformedDistribution', 'Uniform', 'VonMises', 'Weibull', 'Wishart', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'bernoulli', 'beta', 'biject_to', 'binomial', 'categorical', 'cauchy', 'chi2', 'constraint_registry', 'constraints', 'continuous_bernoulli', 'dirichlet', 'distribution', 'exp_family', 'exponential', 'fishersnedecor', 'gamma', 'geometric', 'gumbel', 'half_cauchy', 'half_normal', 'identity_transform', 'independent', 'kl', 'kl_divergence', 'kumaraswamy', 'laplace', 'lkj_cholesky', 'log_normal', 'logistic_normal', 'lowrank_multivariate_normal', 'mixture_same_family', 'multinomial', 'multivariate_normal', 'negative_binomial', 'normal', 'one_hot_categorical', 'pareto', 'poisson', 'register_kl', 'relaxed_bernoulli', 'relaxed_categorical', 'studentT', 'transform_to', 'transformed_distribution', 'transforms', 'uniform', 'utils', 'von_mises', 'weibull', 'wishart']

可以忽略以“__”（双下划线）开始和结束的函数（它们时 Python 中的特殊对象）和以“_”（单下划线）开始的函数（通常是内部函数）

2.7.2 查找特定函数和类的用法

可以调用 help 函数查看。例如采样的多项式分布函数：

from torch.distributions import multinomial
help(multinomial.Multinomial(1, fair_probs))

Help on Multinomial in module torch.distributions.multinomial object:

class Multinomial(torch.distributions.distribution.Distribution)
 |  Multinomial(total_count=1, probs=None, logits=None, validate_args=None)
 |  
 |  Creates a Multinomial distribution parameterized by :attr:`total_count` and
 |  either :attr:`probs` or :attr:`logits` (but not both). The innermost dimension of
 |  :attr:`probs` indexes over categories. All other dimensions index over batches.
 |  
 |  Note that :attr:`total_count` need not be specified if only :meth:`log_prob` is
 |  called (see example below)
 |  
 |  .. note:: The `probs` argument must be non-negative, finite and have a non-zero sum,
 |            and it will be normalized to sum to 1 along the last dimension. :attr:`probs`
 |            will return this normalized value.
 |            The `logits` argument will be interpreted as unnormalized log probabilities
 |            and can therefore be any real number. It will likewise be normalized so that
 |            the resulting probabilities sum to 1 along the last dimension. :attr:`logits`
 |            will return this normalized value.
 |  
 |  -   :meth:`sample` requires a single shared `total_count` for all
 |      parameters and samples.
 |  -   :meth:`log_prob` allows different `total_count` for each parameter and
 |      sample.

# 以下内容过长，故省略

或者在 jupyter notebook 中，可以使用?指令在另一个浏览器窗口中显示文档。例如，list? 指令将创建与 help(list) 指令几乎相同的内容，并在新的浏览器窗口中显示它。此外，如果我们使用两个问号，如 list??，将显示实现该函数的 Python 代码。

求导查阅 mathrm boldsymbol code 人工智能

有关【动手学深度学习】2.4 ~ 2.7 节学习（微积分、自动求导、概率、查阅文档）的更多相关文章

LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它
ruby Hash 包括另一个哈希，深度检查 - 2
进行这种深度检查的最佳方法是什么:{:a=>1,:b=>{:c=>2,:f=>3,:d=>4}}.include?({:b=>{:c=>2,:f=>3}})#=>true谢谢最佳答案我想我从那个例子中明白了你的意思(不知何故)。我们检查子哈希中的每个键是否在超哈希中，然后检查这些键的对应值是否以某种方式匹配:如果值是哈希，则执行另一次深度检查，否则，检查值是否相等:classHashdefdeep_include?(sub_hash)sub_hash.keys.all?do|key|self.has_key?(key)&&ifs