草庐IT

矩阵求导法则总结

Mickle_Liu 2023-08-22 原文

1. 矩阵Y对标量x求导

相当于每个元素求导数后转置一下,注意M×N矩阵求导后变成N×M了
Y = [ y i j ] − − > d Y d x = d y i j d x Y = [y_{ij}] --> \frac{dY}{dx} = \frac{dy_{ij}}{dx} Y=[yij]>dxdY=dxdyij

2. 标量y对列向量X求导:

注意与上面不同,这次括号内是求偏导,不转置,对N×1向量求导后还是N×1向量
y = f ( x 1 , x 2 , . . , x n ) − − > d y / d X = ( D y / D x 1 , D y / D x 2 , . . , D y / D x n ) ′ y = f(x_1,x_2,..,x_n) --> dy/dX = (Dy/Dx_1,Dy/Dx_2,..,Dy/Dx_n)' y=f(x1,x2,..,xn)>dy/dX=(Dy/Dx1,Dy/Dx2,..,Dy/Dxn)

3. 行向量Y’对列向量X求导:

注意1×M向量对N×1向量求导后是N×M矩阵。
将Y的每一列对X求偏导,将各列构成一个矩阵。
重要结论:
d X ′ / d X = I d ( A X ) ′ / d X = A ′ dX'/dX = I \\ d(AX)'/dX = A' dX/dX=Id(AX)/dX=A

4. 列向量Y对行向量 X ′ X' X求导:

转化为行向量Y’对列向量X的导数,然后转置。
注意M×1向量对1×N向量求导结果为M×N矩阵。
d Y / d X ′ = ( d Y ′ / d X ) ′ dY/dX' = (dY'/dX)' dY/dX=(dY/dX)

5. 向量积对列向量X求导运算法则:

注意与标量求导有点不同。
d ( U V ′ ) / d X = ( d U / d X ) V ′ + U ( d V ′ / d X ) d ( U ′ V ) / d X = ( d U ′ / d X ) V + ( d V ′ / d X ) U ′ d(UV')/dX = (dU/dX)V' + U(dV'/dX) \\ d(U'V)/dX = (dU'/dX)V + (dV'/dX)U' d(UV)/dX=(dU/dX)V+U(dV/dX)d(UV)/dX=(dU/dX)V+(dV/dX)U
重要结论:
d ( X ′ A ) / d X = ( d X ′ / d X ) A + ( d A / d X ) X ′ = I A + 0 X ′ = A d ( A X ) / d X ′ = ( d ( X ′ A ′ ) / d X ) ′ = ( A ′ ) ′ = A d ( X ′ A X ) / d X = ( d X ′ / d X ) A X + ( d ( A X ) ′ / d X ) X = A X + A ′ X d(X'A)/dX = (dX'/dX)A + (dA/dX)X' = IA + 0X' = A \\ d(AX)/dX' = (d(X'A')/dX)' = (A')' = A \\ d(X'AX)/dX = (dX'/dX)AX + (d(AX)'/dX)X = AX + A'X d(XA)/dX=(dX/dX)A+(dA/dX)X=IA+0X=Ad(AX)/dX=(d(XA)/dX)=(A)=Ad(XAX)/dX=(dX/dX)AX+(d(AX)/dX)X=AX+AX

6. 矩阵Y对列向量X求导:

将Y对X的每一个分量求偏导,构成一个超向量。
注意该向量的每一个元素都是一个矩阵。

7. 矩阵积对列向量求导法则:

d ( u V ) / d X = ( d u / d X ) V + u ( d V / d X ) d ( U V ) / d X = ( d U / d X ) V + U ( d V / d X ) d(uV)/dX = (du/dX)V + u(dV/dX) \\ d(UV)/dX = (dU/dX)V + U(dV/dX) d(uV)/dX=(du/dX)V+u(dV/dX)d(UV)/dX=(dU/dX)V+U(dV/dX)
重要结论:
d ( X ′ A ) / d X = ( d X ′ / d X ) A + X ′ ( d A / d X ) = I A + X ′ 0 = A d(X'A)/dX = (dX'/dX)A + X'(dA/dX) = IA + X'0 = A d(XA)/dX=(dX/dX)A+X(dA/dX)=IA+X0=A

8. 标量y对矩阵X的导数:

类似标量y对列向量X的导数,
把y对每个X的元素求偏导,不用转置。
d y / d X = [ D y / D x ( i j ) ] dy/dX = [ Dy/Dx(ij) ] dy/dX=[Dy/Dx(ij)]
重要结论:
(1) y = U ′ X V = ∑ ∑ u ( i ) x ( i j ) v ( j ) y = U'XV = \sum\sum u(i)x(ij)v(j) y=UXV=u(i)x(ij)v(j)
则, d y / d X = [ u ( i ) v ( j ) ] = U V ′ dy/dX = [u(i)v(j)] = UV' dy/dX=[u(i)v(j)]=UV
(2) y = U ′ X ′ X U y = U'X'XU y=UXXU
则, d y / d X = 2 X U U ′ ) dy/dX = 2XUU') dy/dX=2XUU)
(3) y = ( X U − V ) ′ ( X U − V ) y = (XU-V)'(XU-V) y=(XUV)(XUV)

d y / d X = d ( U ′ X ′ X U − 2 V ′ X U + V ′ V ) / d X = 2 X U U ′ − 2 V U ′ + 0 = 2 ( X U − V ) U ′ dy/dX = d(U'X'XU - 2V'XU + V'V)/dX = 2XUU' - 2VU' + 0 = 2(XU-V)U' dy/dX=d(UXXU2VXU+VV)/dX=2XUU2VU+0=2(XUV)U

9. 矩阵Y对矩阵X的导数:

将Y的每个元素对X求导,然后排在一起形成超级矩阵。

10.乘积的导数

d ( f ∗ g ) / d x = ( d f ′ / d x ) g + ( d g / d x ) f ′ d(f*g)/dx=(df'/dx)g+(dg/dx)f' d(fg)/dx=(df/dx)g+(dg/dx)f

结论
d ( x ′ A x ) = ( d ( x ′ ′ ) / d x ) A x + ( d ( A x ) / d x ) ( x ′ ′ ) = A x + A ′ x d(x'Ax)=(d(x'')/dx)Ax+(d(Ax)/dx)(x'')=Ax+A'x d(xAx)=(d(x)/dx)Ax+(d(Ax)/dx)(x)=Ax+Ax
(注意:''是表示两次转置)

11. 假设A为m*n的矩阵,x为n维列向量,则

(1) d ( A x ) d x = A ′ \frac{d(Ax)}{dx} = A' dxd(Ax)=A
(2) d ( x ′ A ) d x = A \frac{d(x'A)}{dx} = A dxd(xA)=A
(3) d ( x ′ A x ) d x = ( A ′ + A ) x \frac{d(x'Ax)}{dx} = (A'+A)x dxd(xAx)=(A+A)x

有关矩阵求导法则总结的更多相关文章

  1. 旋转矩阵的几何意义 - 2

    点向量坐标矩阵的几何意义介绍旋转矩阵的几何含义之前,先介绍一下点向量坐标矩阵的几何含义点:在一维空间下就是一个标量,如同一条直线上,以任意某一个位置为0点,以一定的尺度间隔为1,2,3...,相反方向为-1,-2,-3...;如此就形成了一维坐标系,这时候任何一个点都可以用一个数值表示,如点p1=5,即即从原点出发沿着x轴正方向移动5个尺度;点p2=-3,负方向移动3个尺度;     在一维坐标系上过原点做垂直于一维坐标系的直线,则形成了二维坐标系,此时描述一个点需要两个数值来表示点p3=(3,2),即从原点出发沿着x轴正方向移动3个尺度,在此基础上沿着y轴正方向移动两个尺度的位置就是点p3。

  2. SPI接收数据异常问题总结 - 2

    SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

  3. 华为OD机试真题 C++ 实现【带传送阵的矩阵游离】【2023 Q2 | 200分】 - 2

            所有题目均有五种语言实现。C实现目录、C++实现目录、Python实现目录、Java实现目录、JavaScript实现目录题目n行m列的矩阵,每个位置上有一个元素你可以上下左右行走,代价是前后两个位置元素值差的绝对值.另外,你最多可以使用一次传送阵(只能从一个数跳到另外一个相同的数)求从走上角走到右下角最少需要多少时间。输入描述:第一行两个整数n,m,分别代表矩阵的行和列。后面n行,每行m个整数,分别代表矩阵中的元素。输出描述:一个整数,表示最少需要多少时间。

  4. Simulink方法总结和避坑指南(一)——Simulink入门与基本调试方法 - 2

    文章目录一、项目场景二、基本模块原理与调试方法分析——信源部分:三、信号处理部分和显示部分:四、基本的通信链路搭建:四、特殊模块:interpretedMATLABfunction:五、总结和坑点提醒一、项目场景  最近一个任务是使用simulink搭建一个MIMO串扰消除的链路,并用实际收到的数据进行测试,在搭建的过程中也遇到了不少的问题(当然这比vivado里面的debug好不知道多少倍)。准备趁着这个机会,先以一个很基本的通信链路对simulink基础和相关的debug方法进行总结。  在本篇中,主要记录simulink的基本原理和基本的SISO通信传输链路(QPSK方式),计划在下篇记

  5. 欧拉角表示的姿态矩阵(313和312转序) - 2

    一、习惯约定图片来自PSINS(高精度捷联惯导算法)PSINS工具箱入门与详解.pptx二、基本旋转矩阵绕x轴逆时钟旋转α\alphaα角度Rx(α)=[ 1000cos⁡αsin⁡α0−sin⁡αcos⁡α]R_x(\alpha)=\begin{bmatrix}\1&0&0\\0&\cos\alpha&\sin\alpha\\0&-\sin\alpha&\cos\alpha\end{bmatrix}Rx​(α)=​ 100​0cosα−sinα​0sinαcosα​​绕y轴逆时钟旋转α\alphaα角度Ry(α)=[ cos⁡α0−sin⁡α010sin⁡α0cos⁡α]R_y(\alpha

  6. 欧拉角、旋转矩阵及四元数 - 2

    欧拉角、旋转矩阵及四元数1.简介2.欧拉角2.1欧拉角定义2.2右手系和左手系2.3转换流程3.旋转矩阵4.四元数4.1四元数与欧拉角和旋转矩阵之间等效变换4.2测试Matlab代码5.总结1.简介常用姿态参数表达方式包括方向余弦矩阵、欧拉轴/角参数、欧拉角、四元数以及罗德里格参数等。高分辨率光学遥感卫星主要采用欧拉角与四元数对姿态参数进行描述。这里着重讲解欧拉角、旋转矩阵和四元数。2.欧拉角2.1欧拉角定义欧拉角是表征刚体旋转的一种方法之一,由莱昂哈德·欧拉引入的三个角度,用于描述刚体相对于固定坐标系的方向。在摄影测量、空间科学或其它技术领域,一般用一组(三个)欧拉角描述两个空间坐标之间的旋

  7. ruby - 如何修改矩阵(Ruby std-lib Matrix 类)? - 2

    我理解RubystdlibMatrix是不可修改的,也就是说,例如。m=Matrix.zero(3,4)不会写m[0,1]=7但我非常想做...我可以用笨拙的编程来做,比如defmodify_value_in_a_matrix(matrix,row,col,newval)ary=(0...m.row_size).map{|i|m.rowi}.map(&:to_a)ary[row][col]=newvalMatrix[*ary]end...或者作弊,比如Matrix.send:[]=,0,1,7但我想知道,这一定是人们一直遇到的问题。有没有一些标准的、习惯的方法可以做到这一点,而不必使用

  8. 线性代数让我想想:快速求三阶矩阵的逆矩阵 - 2

    快速求三阶矩阵的逆矩阵前言一般情况下,我们求解伴随矩阵是要注意符号问题和位置问题的(如下所示)A−1=1[  ][−[  ]−[  ]−[  ]  −[  ]]=A−1=1[  ][   M11−[M12]   M13−[M21]   M22−[M23]     M31−[M32]   M33]⊤\begin{aligned}&A^{-1}=\frac{1}{[\\]}\left[\begin{array}{cccccc}&-[\\]&\\-[\\]&&-[\\]\\\\&-[\\]&\\\end{array}\right]=\\\\&A^{-1}=\frac{1}{[\\]}\left[\b

  9. 【动态规划】背包问题(详细总结,很全) - 2

    【动态规划】一、背包问题1.背包问题总结1)动规四部曲:2)递推公式总结:3)遍历顺序总结:2.01背包1)二维dp数组代码实现2)一维dp数组代码实现3.完全背包代码实现4.多重背包代码实现一、背包问题1.背包问题总结暴力的解法是指数级别的时间复杂度。进而才需要动态规划的解法来进行优化!背包问题是动态规划(DynamicPlanning)里的非常重要的一部分,关于几种常见的背包,其关系如下:在解决背包问题的时候,我们通常都是按照如下五部来逐步分析,把这五部都搞透了,算是对动规来理解深入了。1)动规四部曲:(1)确定dp数组及其下标的含义(2)确定递推公式(3)dp数组的初始化(4)确定遍历顺

  10. 相机校准—外参矩阵 - 2

    在本文中,我们将探讨摄影机的外参,并通过Python中的一个实践示例来加强我们的理解。相机外参摄像头可以位于世界任何地方,并且可以指向任何方向。我们想从摄像机的角度来观察世界上的物体,这种从世界坐标系到摄像机坐标系的转换被称为摄像机外参。那么,我们怎样才能找到相机外参呢?一旦我们弄清楚相机是如何变换的,我们就可以找到从世界坐标系到相机坐标系的基变换的变化。我们将详细探讨这个想法。具体来说,我们需要知道相机是如何定位的,以及它在世界空间中的位置,有两种转换可以帮助我们:有助于确定摄影机方向的旋转变换。有助于移动相机的平移变换。让我们详细看看每一个。旋转通过旋转改变坐标让我们看一下将点旋转一个角度

随机推荐