RLS递归最小二乘法(Recursive Least Squares)

hymwgk 2023-12-14 原文

RLS递归最小二乘法(Recursive Least Squares)

感谢B站Up 凩子白的讲解视频, 大多数的RLS算法介绍都是从各种专业领域角度讲解的(比如滤波器等角度), 对于缺乏专业背景的同学入门较难, 本文主要是以上提到的视频的文字化, 加入了自己的一些理解, 也许有一些地方不是那么严谨, 不过希望能帮助其他同学快速了解一下RLS算法的思想。

PRELIMINARIES

最小二乘法

对于样本数据对儿 $(\mathbf{x},y)$ , 其中输入数据向量 $\mathbf{x}=[x_{11},x_{12},...,x_{1m}]^T \in \mathbb{R}^m$ , 输出样本为 $y\in \mathbb{R}$ ; 使用参数为 $\mathbf{w}$ 的模型来拟合数据 $(\mathbf{x},y)$ 之间的真实映射关系; 认为模型 $\mathbf{w}$ 的输出为 $y$ 的估计值 $\hat{y}\in \mathbb{R}$ , 满足 $\hat{y} \sim f({\mathbf{w}};\mathbf{x})$ , 拟合模型满足如下形式
$\hat{y_1}=w_1x_{11}+w_2x_{12}+...w_mx_{1m}=\mathbf{x_1^T}\mathbf{{w}}\\ \hat{y_2}=\mathbf{x_2^T }\mathbf{{w}}\\ \vdots\\ \hat{y_n}=\mathbf{x_n^T }\mathbf{{w}} \tag{1}$
最小二乘法的思路, 就是希望近似模型参数 $\mathbf{{w}}$ 在这 $n$ 个样本输入数据 $X_{n\times m}=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n}]^T$ (以后简记为 $X$ )上得出的估计值 $\hat{\mathbf y}=[\hat{y_1},\hat{y_2},...,\hat{y_n}]^T$ 与ground truth 输出样本数据 $\mathbf y=[y_1,y_2,...,y_n]^T$ 之间的差值平方和最小,即
${\mathbf{w}} =\arg min \sum\limits_{i=1}^n (y_i-\hat{y_i})^2\\ = \arg min \sum\limits_{i=1}^n (y_i-\mathbf{x_i^T }\mathbf{{w}})^2\\ =\arg min \begin{Vmatrix} \mathbf{y}-X\mathbf{w} \end{Vmatrix}_2^2\\ =\arg min\ E(\mathbf{w}) \tag{2}$
误差 $E(\mathbf{w})$ 对参数 $\mathbf{w}$ 求梯度,
$\nabla_\mathbf{w} E =\nabla_\mathbf{w}\begin{Vmatrix} \mathbf{y}-X\mathbf{w} \end{Vmatrix}_2^2\\ =\nabla_\mathbf{w} \big[(\mathbf{y}-X\mathbf{w})^T(\mathbf{y}-X\mathbf{w})\big] \\ =2X^T(\mathbf{y}-X\mathbf{w}) \tag{3}$
令 $\nabla_\mathbf{w} E=0$ , 即可求出
$\mathbf{w}=X^{-1}\mathbf{y}=(X^TX)^{-1}X^T\mathbf{y} \tag{4}$
注意, 公式 ${3}$ 中的 $\mathbf y$ 是样本数据, 将 $X^{-1}$ 表述为 $X^TX)^{-1}X^T$ 的原因是矩阵 $X$ 不一定是 $n\times n$ 形状,因此不一定有逆矩阵, 而 $X^TX$ 的逆是存在的?

当一次性给出所有样本集合 $(X,\mathbf{y})$ 时, 可以通过公式 ${4}$ 来直接计算出最优的拟合模型参数 $\mathbf{w}$ , 然而, 在实际应用中, 这种直接计算法并不常见, 主要是因为公式中求逆部分 $X^TX)^{-1}$ 的计算量大, 在样本数据量大时计算量更是明显增大; 另外, 现实生活中,往往出现样本数据可能也并不是一次性给出, 而是不断给出新的样本数据, 以一种数据流的形式给出样本数据, 例如传感器随时间不断读取信号等, 这种情况下利用公式 ${4}$ 直接计算最优模型参数 ${\mathbf{w}}$ 就需要每次进行直接计算, 也是不现实的.

因此, 为了利用最小误差平方和原则, 求解在大样本量, 或者数据流情况下的最优模型参数 ${\mathbf{w}}$ , 一种方法可以将大样本分成多批次(batch), 计算旧模型在新批次样本上的梯度, 不断进行梯度下降来进行迭代求解(也可以将数据流当做一个个batch来梯度更新); 另一种则是解析的方法, 就是这里提到的递归最小二乘解法(RLS).

本质上, 递归最小二乘法RLS和梯度下降、直接计算法一样, 都是为了求解满足最小误差平方和原则的最优模型参数 ${\mathbf{w}}$ , 只是在实现方式上有所不同.

递归最小二乘法

如之前提到的, RLS的主要应用场景, 是假设输入样本数据 $X$ 在不断添加新数据, 例如 $X=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n}]^T\rightarrow X'=[\mathbf{x_1},\mathbf{x_2},...,\mathbf{x_n} , \mathbf{x_{n+1}}]^T$ , $\mathbf y=[y_1,y_2,...,y_n]^T\rightarrow\mathbf y'=[y_1,y_2,...,y_n,y_{n+1}]^T$ , 即, 以一种数据流的形式给定样本; 这种情况下最优模型参数也将发生变化 $\mathbf{w}\rightarrow \mathbf{w}'$ , 那么如果使用公式 ${4}$ 就必须不断一次次计算逆矩阵 $X^TX)^{-1}$ , 由于计算逆矩阵非常耗时, 上述的计算方法显然是不实用的, 因此希望找到一种以公式 ${4}$ 为基础的递归求解新参数 $\mathbf{w'}$ 的方法, 使得求解出的新模型 $\mathbf{w'}$ 在当前最新的样本集 $(X',\mathbf{y'})$ 上仍然满足误差平方和最小原则.

递归最小二乘具体解法

假设, 我们手头已经有了一个在已有样本 $(X,\mathbf{y})$ 上满足最小误差平方和的模型参数 $\mathbf{w}$ （至于最初的模型参数的获取见下文）, 我们希望找到一种递推公式, 能够得到更新数据前后的参数 $\mathbf{w}\rightarrow \mathbf{w'}$ 之间的关系, 避免一次次重新计算逆矩阵 $X^TX)^{-1}$ , 就是RLS算法的主要动机.

对公式 ${4}$ 进行分析, 定义 $R\overset{\underset{def}{}}{=} X^TX, \mathbf{z} \overset{\underset{def}{}}{=} X^T\mathbf{{y}}$ ,则公式 ${4}$ 可改写为
$\mathbf{w}=R^{-1}\cdot \mathbf{z} \tag{5}$
在发生数据更新后, 新的权重矩阵记为 $\mathbf{w}'$ , 新数据矩阵为 $X^{'}$ 新矩阵 $R^{'}$ 公式 ${4}$ 可更新为
$\mathbf{w'}=R'^{-1}\cdot \mathbf{z'} \tag{6}$

递推求解矩阵 $R^{'}$

在更新数据之后, 公式 ${4}$ 求解新权重矩阵 $\mathbf{w}'$ 的主要计算量在于求逆部分 $R^{-1}$ , 因此先对矩阵 $R$ 进行计算处理, 根据分块矩阵计算,可以得到更新后矩阵 $R^{'}$ 与更新前矩阵 $R$ 之间的递推公式
${X'}^TX' = [X^T|\mathbf{x_{n+1}}] \begin{bmatrix} X\\ \hline {\mathbf{x_{n+1}}}^T \end{bmatrix} =X^TX+\mathbf{x_{n+1}}\mathbf{x_{n+1}}^T = R + \mathbf{x_{n+1}}\mathbf{x_{n+1}}^T \tag{7}$
在现实中, 新的数据往往比旧数据更有价值, 因此一般为公式 ${7}$ 添加遗忘因子 $\lambda \leq 1$ , 这样越旧的数据在迭代过程中比重就越小, 即
$\lambda R+\mathbf{x_{n+1}}\mathbf{x_{n+1}}^T \tag{8}$

递推求解逆矩阵 $R'^{-1}$

公式 ${8}$ 表明了矩阵 $R$ 与 $R^{'}$ 的迭代关系, 但是并不包含对求逆过程的处理, 我们更希望, 能够获得矩阵 $R^{-1}$ 与 ${R'}^{-1}$ 之间的递推关系. 在计算地推关系前, 需要引入如下引理

Theorem 1 : 如果矩阵 $A$ 可以表示为如下形式
$B^{-1} + CD^{-1}C^T \tag{9}$
则逆矩阵 $A^{-1}$ 可以表示
$A^{-1}=B-BC(D+C^TBC)^{-1}C^TB \tag{10}$
将公式 ${9}$ , ${10}$ 相乘即可证明该引理

对比公式 ${8}$ , ${9}$ 令 $A\overset{\underset{def}{}}{=} R', B\overset{\underset{def}{}}{=}(\lambda R)^{-1}, C\overset{\underset{def}{}}{=} \mathbf{x_{n+1}},D \overset{\underset{def}{}}{=} 1$ 则根据公式 ${10}$ 计算得到 ${R'}^{-1}$ 为
${R'}^{-1} =(\lambda R)^{-1} - (\lambda R)^{-1}\mathbf{x_{n+1}}\big(1+\mathbf{x_{n+1}}^T(\lambda R)^{-1}\mathbf{x_{n+1}}\big)^{-1}\mathbf{x_{n+1}}^T(\lambda R)^{-1}\\ = \frac{1}{\lambda}R^{-1} - \frac{1}{\lambda}R^{-1}\mathbf{x_{n+1}}\frac{1}{1+\frac{1}{\lambda}\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\mathbf{x_{n+1}}^T\frac{1}{\lambda}R^{-1}\\ =\frac{1}{\lambda}R^{-1} - \frac{\frac{1}{\lambda^2}R^{-1}\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TR^{-1}}{1+\frac{1}{\lambda}\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\\ =\frac{1}{\lambda}R^{-1} - \frac{\frac{1}{\lambda}R^{-1}\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TR^{-1}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\\ =\frac{1}{\lambda}R^{-1} - \frac{1}{\lambda}\frac{R^{-1}\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}\mathbf{x_{n+1}}^TR^{-1} \tag{11}$
公式 ${11}$ 计算新的逆矩阵 $R'^{-1}$ 的过程仅仅需要之前的旧的逆矩阵 $R^{-1}$ 以及新添加的数据向量 $\mathbf{x_{n+1}}$ 即可, 避免了直接求逆, 因此计算复杂度比直接求逆要小很多.

对公式 ${11}$ 作进一步简化, 令 $P'\overset{\underset{def}{}}{=} R'^{-1},P\overset{\underset{def}{}}{=} R^{-1}$ , 定义增益向量 $k\overset{\underset{def}{}}{=} \frac{R^{-1}\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^TR^{-1}\mathbf{x_{n+1}}}$ 可转变为
$\frac{1}{\lambda}P - \frac{1}{\lambda}k\cdot \mathbf{x_{n+1}}^TP \tag{12}$
需要指出的是, 对公式 ${12}$ 两侧都右乘向量 $\mathbf{x}_{n+1}$ 恰好满足如下关系
$P'\mathbf{x}_{n+1} = \frac{1}{\lambda}P\mathbf{x}_{n+1} -\frac{\frac{1}{\lambda} P\mathbf{x_{n+1}}\mathbf{x_{n+1}}^TP\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^T P\mathbf{x_{n+1}}}\\ =\frac{P\mathbf{x_{n+1}}}{\lambda+\mathbf{x_{n+1}}^T P\mathbf{x_{n+1}}}\\ =k \tag{13}$
这样, 根据公式 ${12}$ 就得到了旧逆矩阵 $P$ 与更新后逆矩阵 $P^{'}$ 之间的递推关系; 重新表示公式 ${6}$ 为
$\mathbf{w'}=P'\cdot \mathbf{z'} \tag{14}$

递推求 $\mathbf{z'}$

对公式 ${6}$ 中的向量 $\mathbf{z'}$ 同样利用分块矩阵计算
$\mathbf{z'} = {X'}^T\mathbf{{y'}} = [X^T|\mathbf{x_{n+1}}] \begin{bmatrix} \mathbf{{y}} \\ \hline {y}_{n+1} \end{bmatrix} =X^T\mathbf{{y}}+\mathbf{x_{n+1}}{y}_{n+1} = \mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1} \tag{15}$
添加遗忘因子 $\lambda\leq 1$ ,得到递推公式
$\mathbf{z'} =\lambda\mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1} \tag{16}$

递推求 $\mathbf{w'}$

结合公式 ${12}$ , ${13}$ , ${14}$ , ${16}$ ,进行多步推导可以得到
$\mathbf{w'} =P'\cdot \mathbf{z'}\\ =P'[\lambda\mathbf{z}+\mathbf{x_{n+1}}{y}_{n+1}] \\ =\lambda P'\mathbf{z}+P'\mathbf{x_{n+1}}{y}_{n+1}\\ =\lambda \bigg[\frac{1}{\lambda}P - \frac{1}{\lambda}k\cdot\mathbf{x_{n+1}}^T P \bigg]\mathbf{z}+ P'\mathbf{x_{n+1}}{y}_{n+1} \\ =P\mathbf{z} - k\cdot \mathbf{x_{n+1}}^T P\mathbf{z} + P'\mathbf{x_{n+1}}{y}_{n+1} \\ =P\mathbf{z} - k\cdot\mathbf{x_{n+1}}^T P\mathbf{z} + k\cdot {y}_{n+1} \\ =\mathbf{w}-k(\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}) \tag{17}$
注意其中, $\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}$ 项中, 模型参数 $\mathbf{w}$ 是旧模型参数,如果定义 $e\overset{\underset{def}{}}{=}\mathbf{x_{n+1}}^T\mathbf{w}-{y}_{n+1}$ 则公式 ${17}$ 可变形为

$\mathbf{w'}=\mathbf{w}-k\cdot e \tag{18}$
这就是RLS的最终计算目标.

关于初始化

RLS主要描述的是一种推理关系, 不断地在原来的旧最优模型参数上进行迭代得到最新模型参数; 那么最初进行迭代时, 需要一个初始的模型参数, 这个模型参数最好是满足最小平方和误差原则; 公式(5) 通过以上介绍, 可以改写为
$\mathbf{w} = P\cdot \mathbf{z} \tag{19}$
其中, $\mathbf{z} \overset{\underset{def}{}}{=} X^T\mathbf{{y}}$ 可通过已有样本计算得出, 初始的 $P$ 一般取
$P=k\cdot I \tag{20}$
同时, 初始 $k$ 取一个较大的数（保证 $P$ 不会在递归过程中减小为负).

总结

RLS主要是在误差平方和最小的原则基础上, 提出一种解析的拟合模型参数 $\mathbf{w}$ 的迭代递推公式; 可以实现在新的样本数据到来时, 利用新的样本数据以及旧的最优模型参数来便捷地计算新的满足最小二乘最优模型参数, 从而避免直接计算方法中的逆矩阵运算.

参考

[1] [知识梳理-04] Recursive Least Squares 递归最小二乘法 RLS_哔哩哔哩_bilibili

[2] 线性回归与递归最小二乘算法 (R.L.S algorithm) - 简书 (jianshu.com)

[3] 还有一个忘记了

有关RLS递归最小二乘法(Recursive Least Squares)的更多相关文章

ruby - 获取数组中的值并最小化某个类属性的最优雅的方法是什么？ - 2
假设我有以下类(class):classPersondefinitialize(name,age)@name=name@age=ageenddefget_agereturn@ageendend我有一组Person对象。是否有一种简洁的、类似于Ruby的方法来获取最小(或最大)年龄的人？如何根据它对它们进行排序？最佳答案这样做会:people_array.min_by(&:get_age)people_array.max_by(&:get_age)people_array.sort_by(&:get_age)
ruby - ruby 乘法语句中星号中断语法前的空格 - 2
在添加一些空格以使代码更具可读性时(与上面的代码对齐)，我遇到了这个:classCdefx42endendm=C.new现在这将给出“错误数量的参数”:m.x*m.x这将给出“语法错误，意外的tSTAR，期待$end”:2/m.x*m.x这里的解析器到底发生了什么？我使用Ruby1.9.2和2.1.5进行了测试。最佳答案 *用于运算符(42*42)和参数解包(myfun*[42,42])。当你这样做时:m.x*m.x2/m.x*m.xRuby将此解释为参数解包，而不是*运算符(即乘法)。如果您不熟悉它，参数解包(有时也称为“spl
ruby - 递归地将所有数字字符串转换为 Ruby 哈希中的整数 - 2
我有一个随机大小的散列，它可能有类似"100"的值，我想将其转换为整数。我知道我可以使用value.to_iifvalue.to_i.to_s==value来做到这一点，但我不确定我将如何在我的散列中递归地做到这一点，考虑到一个值可以是一个字符串，或一个数组(哈希或字符串)，或另一个哈希。最佳答案这是一个非常简单的递归实现(尽管必须同时处理数组和散列会增加一些技巧)。deffixnumifyobjifobj.respond_to?:to_i#IfwecancastittoaFixnum,doit.obj.to_ielsifobj
Ruby:标准递归模式 - 2
我经常迷上ruby的一件事是递归模式。例如，假设我有一个数组，它可能包含无限深度的数组作为元素。所以，例如:my_array=[1,[2,3,[4,5,[6,7]]]]我想创建一个方法，可以将数组展平为[1,2,3,4,5,6,7]。我知道.flatten可以完成这项工作，但这个问题是作为我经常遇到的递归问题的一个例子-因此我试图找到一个更可重用的解决方案。简而言之-我猜这种事情有一个标准模式，但我想不出任何特别优雅的东西。任何想法表示赞赏最佳答案递归是一种方法，它不依赖于语言。您在编写算法时要考虑两种情况:再次调用函数的情
ruby-on-rails - 浮点乘法的 Ruby 奇怪问题 - 2
有没有人用ruby解决这个问题:假设我们有:a=8.1999999我们想将它四舍五入为2位小数，即8.20，然后乘以1,000,000得到8,200,000我们是这样做的；(a.round(2)*1000000).to_i但是我们得到的是8199999，为什么？奇怪的是，如果我们乘以1000、100000或10000000而不是1000000，我们会得到正确的结果。有人知道为什么吗？我们正在使用ruby1.9.2并尝试使用1.9.3。谢谢! 最佳答案每当你在计算中得到时髦的数字时使用bigdecimalrequire'bi
ruby - 为什么我用递归得到 "stack level too deep"？ - 2
我有这个ruby代码:defget_sumnreturn0ifn似乎正在为999之前的值工作。当我尝试9999时，它给了我这个:stackleveltoodeep(SystemStackError)所以，我添加了这个:RubyVM::InstructionSequence.compile_option={:tailcall_optimization=>true,:trace_instruction=>false}但什么也没发生。我的ruby版本是:ruby1.9.3p392(2013-02-22revision39386)[x86_64-darwin12.2.1]我还增加了机器的堆栈大
ruby - 构建网络蜘蛛时，应该使用递归吗？ - 2
构建一个深度优先的网络蜘蛛，这意味着它将访问第一页上的所有链接，然后转到每个链接，并访问所有第二页上的链接...你应该使用递归吗？我发现这是CPU密集型的。defrecursion()linkz_on_first_page.eachdo|link|recursion(link)endendrecursion(firstpage) 最佳答案绝对不是，由于万维网的实际性质，您很快就会遇到问题。当您访问带有主导航部分的网站时，每个页面都链接到其他页面，您就进入了一个无限循环。您可以跟踪您处理了哪些链接，但即便如此，递归循环并不真正适合万
ruby-on-rails - 如何以递归方式将 YAML 文件扁平化为 JSON 对象，其中键是点分隔的字符串？ - 2
例如，如果我有YAML文件en:questions:new:'NewQuestion'other:recent:'Recent'old:'Old'这最终会变成一个json对象，例如{'questions.new':'NewQuestion','questions.other.recent':'Recent','questions.other.old':'Old'} 最佳答案由于问题是关于在Rails应用程序上使用YAML文件进行i18n，因此值得注意i18ngem提供了一个辅助模块I18n::Backend::Flatten完全像
ruby - 返回空白页的最小 Capybara/Poltergeist 测试 - 2
看来我正在回顾SO帖子中采取的步骤:Capybara,PoltergeistandPhantomjsandgivinganemptyresponseinbody.(如果你愿意，可以将其标记为重复，但我包含了一个最小的独立测试用例和版本号。)问题我做错了什么吗？我可以运行另一个可能有助于隔离问题的最小测试吗？文件:pgtest.rbrequire'rubygems'require'capybara'require'capybara/dsl'require'capybara/poltergeist'modulePGTestincludeCapybara::DSLextendselfdeft
ruby - 为什么尾递归 gcd 比 rubinius 的 while 循环更快 - 2
我有这两个gcd函数的实现:defgcd1(a,b)ifa==baelsifa>bif(a%b)==0belsegcd1(a%b,b)endelseif(b%a)==0aelsegcd1(a,b%a)endendenddefgcd2(a,b)if(a==b)returnaelsifb>amin,max=a,belsemin,max=b,aendwhile(max%min)!=0min,max=max%min,minendminend函数gcd1是尾递归的，而gcd2使用while循环。我已经验证rubinius通过对阶乘函数进行基准测试来执行TCO，只有阶乘函数基准测试显示递归版本和迭

RLS递归最小二乘法(Recursive Least Squares)

RLS递归最小二乘法(Recursive Least Squares)

PRELIMINARIES

最小二乘法

递归最小二乘法

递归最小二乘具体解法

递推求解矩阵 R ′ R' R′

递推求解逆矩阵 R ′ − 1 R'^{-1} R′−1

递推求 z ′ \mathbf{z'} z′

递推求 w ′ \mathbf{w'} w′

关于初始化

总结

参考

有关RLS递归最小二乘法(Recursive Least Squares)的更多相关文章

随机推荐

递推求解矩阵 $R^{'}$

递推求解逆矩阵 $R'^{-1}$

递推求 $\mathbf{z'}$

递推求 $\mathbf{w'}$