机器学习（一）回归算法

橡皮鸭小队长 2024-05-27 原文

机器学习（一）回归算法

1. 什么是回归算法

回归算法是一种有监督算法
回归算法是一种比较常用的机器学习算法,用来建立"解释"变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习角度来讲,用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系,在算法学习过程中试图寻找一个函数 $h:R^d->R$ 使得参数之间的关系拟合性最好。
回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d维度的属性/数值向量

2.线性回归、最大似然估计及二乘法

线性回归

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

误差 $\epsilon^{(i)}(1\le i \le n)$ 是独立同分布的,服从均值为0,方差为某定值 $\delta^2$ 的高斯分布。
- 原因:中心极限定理
实际问题中,很多随机现象可以看作众多因素的独立影响的综合反应,往往服从正态分布

似然函数

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

$p(\epsilon^{(i)})=\frac{1}{\delta \sqrt{2\pi}}e^{-\frac{(\epsilon^{(i)})^2}{2\delta^2}}$

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\delta \sqrt{2\pi}}exp({-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2}})$

$L(\theta)=\prod \limits_{i=0}^mp(y^{(i)}|x^{(i)};\theta)=\prod \limits_{i=0}^m\frac{1}{\delta \sqrt{2\pi}}exp({-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2}})$ ,希望 $L(\theta)$ 越大越好

求对数
$\begin{aligned} \mathcal{l}(\theta)=&logL(\theta)\\=&log\sum_{i=1}^m\frac{1}{\delta \sqrt{2\pi}}exp({-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\delta^2}})\\=&mlog\frac{1}{\delta \sqrt{2\pi}}-\frac{1}{\delta^2}\cdot\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{aligned}$

$loss(y_j,\hat{y_j})=J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$

$\theta$ 的求解过程

$\begin{aligned} J(\theta)=&\frac{1}{2}\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2\\=&\frac{1}{2}(X\theta-Y)^T(X\theta-Y) \rightarrow min_{\theta}J(\theta) \end{aligned}$

$\begin{aligned} \nabla J(\theta)=&\nabla_{\theta}\frac{1}{2}(X\theta-Y)^T(X\theta-Y) \\=& \nabla_{\theta}\frac{1}{2}((\theta ^TX^T-Y)(X\theta-Y)) \\=&\nabla_{\theta}(\frac{1}{2}(\theta^TX^TX\theta - \theta^TX^TY - Y^TX\theta+Y^TY))\\ =& \frac{1}{2}(2X^TX\theta-X^TY-(Y^TX)^T) \\=& X^TX\theta-X^TY \end{aligned}$

$\theta=(X^TX)^{-1}X^TY$

最小二乘法的参数最优求解

参数解析式

$\theta=(X^TX)^{-1}X^TY$
最小二乘法要求矩阵 $X^TX$ 是可逆的；为了防止不可逆或者过拟合的问题存在，可以二外增加二额外数据的影响，导致最终的矩阵是可逆的
$\theta=(X^X+\lambda I)^{-1}X^Ty$
最小二乘法直接求解的难点：矩阵逆的求

3.目标函数(loss/cost function)

0-1损失函数
$J(\theta)=\left\{ \begin{aligned}1,Y\neq f(X)\\ 0,Y=f(X) \end{aligned} \right.$
感知损失函数
$J(\theta)=\left\{ \begin{aligned}1,|Y-f(X)|>t\\ 0,|Y-f(X)|\leq t \end{aligned} \right.$
平方和损失函数

$J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$
绝对值损失函数

$J(\theta)=\sum_{i=1}^m|h_{\theta}(x^{(i)}-y^{(i)}|$
对数损失函数

$J(\theta)=\sum_{i=1}^m(y^{(i)}h_{\theta}(x^{(i)}))$

4.线性回归的过拟合

目标函数

$J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$
为了防止数据过拟合，也就是 $\theta$ 值在样本空间中不能过大/国过小，可以在目标函数之上增加一个平方和损失：

$J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda\sum_{i=1}^n\theta_j^2$
正则项(norm): $\lambda\sum_{i=1}^n\theta_j^2$
- L2-norm:
  
  $J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2\quad\lambda>0$
- L1-norm:
  
  $J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=1}^n|\theta_j|\quad\lambda>0$

Ridge(L2-norm)和LASSO(L1-norm)比较

L2-norm中，由于对于各个维度的参数缩放是在一个圆内缩放的，不可能导致有维度参数变为0的情况，那么也就不会产生稀疏解；实际应用中，数据的维度中是存在噪音和冗余的，系数的解可以找到有用的维度并且减少冗余，提高回归预测的准确性和鲁棒性（减少了overfitting)（L1-norm可以达到最终解的稀疏性的要求）
Ridge模型有较高的准确性、鲁棒性以及稳定性；LASSO模型具有较高的求解速度，主要用于特征选择。
如果稳定性和求解速度都考虑，就使用Elasitc Net

Elasitc Net

同时使用L1正则和L2正则的线性回归模型就成为Elasitc Net算法（弹性网络算法）
$J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2+\lambda(p\sum_{j=1}^n|\theta_j|+(1-p)sum_{j=1}^n\theta_j^2)$

$\left\{\begin{aligned}&\lambda > 0\\&p\in [0,1]\end{aligned}\right.$

5.模型效果判断

MSE:误差平方和，越趋近于0表示模型越拟合训练数据。
RMSE：MSE的平方根，作用同MSE
$R^2$ :取值范围(负无穷，1]，值越大表示模型越拟合训练数据；最优解是1；当模型预测为随机值的时候，有可能为负；若预测值恒为样本期望， $R^2$ 为0
TSS：总平方和TSS(Total Sum of Squares)，表示样本之间的差异情况，是伪方差的m倍
RSS：残差平方和RSS(Residual Sum of Squares)，表示预测值和样本值之间的差异情况，是MSE的m倍

$\begin{aligned} &MSE=\frac{1}{m}\sum_{i=1}^m(y_i-\hat{y_i})^2\\ &RMSE=\sqrt{MSE}=\sqrt{\frac{1}{m}\sum_{i=1}^m(y_i-\hat{y_i})^2}\\ &R^2=1-\frac{RSS}{TSS}=1-\frac{\sum_{i=1}^m(y_i-\hat{y_i})^2}{\sum_{i=1}^m(y_i-\bar{y_i})^2} \end{aligned}$

6.梯度下降算法

目标函数 $\theta$ 求解 $J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$
初始化 $\theta$ (随机初始化，可以初始为0)
沿着负梯度方向迭代，更新后的 $\theta$ 使得 $J(\theta)$ 更小

$\theta=\theta-\alpha\cdot \frac{\partial J(\theta)}{\partial \theta}$

$\alpha$ ：学习率、步长

梯度方向

$\begin{aligned} \frac{\partial}{\partial \theta_j}J(\theta)=&\frac{\partial}{\partial \theta_j}\frac{1}{2}(h_{\theta}(x)-y)^2\\ =&2\cdot \frac{1}{2}(h_{\theta}(x)-y)\cdot \frac{\partial}{\partial \theta_j}(h_{\theta}(x)-y)=(h_{\theta}(x)-y)\frac{\partial}{\partial \theta_j}(\sum_{i=1}^n\theta_ix_i-y)\\ =&(h_{\theta}(x)-y)x_j \end{aligned}$

$J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$

批量梯度下降算法(BGD)

$\frac{\partial}{\partial \theta_j}J(\theta)=(h_{\theta}(x)-y)x_i$

$\frac{\partial J(\theta)}{\partial \theta_j}=\sum_{i=1}^m\frac{\partial }{\partial \theta_j}=\sum_{i=1}^m(x_j^{(i)}(h_{\theta}(x^{(i)})-y^{(i)}))=\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)}))x_j^{(i)}$

$\theta_j=\theta_j+\alpha\sum_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)})))x_j^{(i)}$

随机梯度下降算法(SGD)

$\frac{\partial}{\partial \theta_j}J(\theta)=(h_{\theta}(x)-y)x_i$

for i=1 to m,{

$\theta_j=\theta_j+\alpha\sum_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)})))x_j^{(i)}$

}

BGD和SGD算法比较

SGD速度比BGD快(迭代次数少)
SGD在某些情况下(全局存在多个相对最优解/ $J(\theta)$ 不是一个二次)，又肯跳出某些小的局部最优解，所以不会比BGD坏
BGD一定能够得到一个局部最优解(在线回归模型中一定是得到一个全局最优解)，SGD由于随机性的存在可能导致最终结果比BGD的差
优先选择SGD

梯度下降法

由于梯度下降法中负梯度方向作为变量的变化方向，所以有可能导致最终求解的值是局部最优解，所以在使用梯度下降的时候，一般需要进行一些调优策略：
- **学习率的选择：**学习率过大，表示每次迭代更新的时候变化比较大，可能会跳过最优解；学习率过小，就会导致迭代速度过慢，很长时间都不能结束。
- **算法初始值的选择：**初始值不同，最终获得的最小值也有可能不同，因为梯度下降法求解的是局部最优解，所以一般情况下，选择多次不同初始值运行算法，并最终返回损失函数最小情况下的结果值；
- **标准化：**由于样本不同特征的取值范围不同，可能会导致在各个不同参数上迭代速度不同，为了减少特征取值的影响，可以将特征进行标准化操作。

线性回归总结

算法模型：线性回归(Linear)、岭回归(Ridge)、LASSO回归、Elastic Net
正则化：L1-norm、L2-norm
损失函数/目标函数： $J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2 \rightarrow \min_{\theta}J(\theta)$
$\theta$ 求解方式：最小二乘法(直接计算，目标函数是平方和损失函数)、梯度下降(BGD\SGD\MBGD)

补充知识

局部加权回归-损失函数

普通线性回归损失函数： $J(\theta)=\sum_{i=1}^m(h_{\theta}(x^{(i)}-y^{(i)})^2$
局部加权回归损失函数： $J(\theta)=\sum_{i=1}^mw^{(i)}(h_{\theta}(x^{(i)}-y^{(i)})^2$

局部加权回归-权重值设置

$w^{(i)}$ 是权重，它根据要预测的点与数据集中的点的距离来为数据集中的点赋权值。

当某点离要预测的点越远，其权重越小，否则越大。常用公式选择为：

$w^{(i)}=exp(-\frac{(x^{(i)})-\bar{x})^2}{2k^2})$
该函数称为指数衰减函数，其中k为波长参数，它控制了权值随距离下降的速率
使用该方式主要应用到样本之间的相似性考虑，主要内容在SVM中再考虑(核函数)

Logistic回归

Logistic/sigmoid函数 $p=h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

或者写成 $g(z)=\frac{1}{1+e^{-z}}$
$KaTeX parse error: Expected 'EOF', got '&' at position 2: &̲y=\left\{\begin…$
$g'(z)=(\frac{1}{1+e^{-z}})'=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{1}{1+e^{-z}}\cdot\frac{e^{-z}}{1+e^{-z}}=\frac{1}{1+e^{-z}}\cdot (1-\frac{1}{1+e^{-z}})$

Logistic回归及似然函数

假设： $P(y=1|x;\theta)=h_{\theta}(x)$

$P(y=0|x;\theta)=1-h_{\theta}(x)$

$P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{(1-y)}$

	$y = 1$	$y = 0$
$p (y ∣ x)$	$\theta$	$1-\theta$

似然函数： $\begin{aligned}L(\theta)=&p(\vec{y}|X;\theta)=\prod\limits_{i=1}^mp(y^{(i)}|X^{(i)};\theta)\\=&\prod\limits_{i=1}^m(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-(h_{\theta}(x^{(i)}))^{1-y^{(i)}}\end{aligned}$
对数似然函数： $\mathcal{l}(\theta)=logL(\theta)=\sum_{i=1}^m(y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)})))$

最大似然/极大似然函数的随机梯度

$\begin{aligned} \frac{\partial \mathcal{l}(\theta)}{\partial \theta_j}=\sum_{i=1}^m(\frac{y^{(i)}}{h_{\theta}(x^{(i)})}-\frac{1-y^{(i)}}{1-h_{\theta}(x^{(i)})})\cdot \frac{{\partial h_{\theta}(x^{(i)})}}{\partial \theta_{j}}\\ =\sum_{i=1}^m(\frac{y^{(i)}}{g(\theta^T(x^{(i)})}-\frac{1-y^{(i)}}{1-g(\theta^T(x^{(i)})})\cdot \frac{{\partial (g(\theta^Tx^{(i)})}}{\partial \theta_{j}}\\ =\sum_{i=1}^m(\frac{y^{(i)}}{g(\theta^T(x^{(i)})}-\frac{1-y^{(i)}}{1-g(\theta^T(x^{(i)})})\cdot g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)}))\cdot \frac{{\partial \theta^Tx^{(i)}}}{\partial \theta_{j}}\\ =\sum_{i=1}^m(y^{(i)}(1-g(\theta^Tx^{(i)})+(1-y^{(i)})g(\theta^T(x^{(i)}))\cdot x_j^{(i)}=\sum_{i=1}^m(y^{(i)}-g(\theta^T(x^{(i)}))\cdot x_j^{(i)} \end{aligned}$

极大似然估计与Logistic回归损失函数

$\mathcal{l}(\theta)\prod \limits_{i=1}^mp(y^{(i)}|x^{(i)};{\theta})=\prod \limits_{i=1}^mp^{y^{(i)}}(1-p_i)^{(1-y^{(i)})}$

$p_{i}=h_{\theta}(x^{(i)})=\frac{1}{1+e^{-\theta^Tx^{(i)}}}$

$\mathcal{l}(\theta)=logL(\theta)=\sum_{i=1}^mln[p^{y^{(i)}}(1-p_i)^{(1-y^{(i)})}]$

$\begin{aligned}loss=&\mathcal{l}(\theta)\\=&-\sum_{i=1}^m[y^{(i)}ln(p_i)+(1-y^{(i)})ln(1-p_i)]\\=&\sum_{i=1}^m[-y^{(i)}ln(h_{\theta}(x^{(i)}))+(1-y^{(i)})ln(1-h_{\theta}(x^{(i)}))]\end{aligned}$

Logistic回归实例

Softmax回归

softmax回归是logistic回归的一般化，适用于K分类的问题，第k类的参数为向量 $\theta_k$ ，组成的二维矩阵为 $\theta_{k*n}$ ;
softmax函数的本质就是将一个K维的任意实数向量压缩（映射成另一个k维的实数向量，其中向量中的每个元素取值都介于(0,1)之间。
softmax回归概率函数为：
- $p(y=k|x;\theta)=\frac{e^{\theta^T_kx}}{\sum_{l=1}^Ke^{\theta^T_lx}},k=1,2,...,K$

总结

线性模型一般用于回归问题，Logistic和Softmax模型一般用于分类问题
求 $\theta$ 的中主要方式是梯度下降算法，梯度下降算法是优化参数的重要手段，主要是SGD，适用于在线学习以及跳出局部极小值。
Logistic/Softmax回归是实践中解决分类问题的最重要的方法
广义线性模型对样本要求不必服从正态分布\只要服从指数分布簇(二分布、伯努利分布、分布等)即可；广义线性模型的自变量可以是连续的也可以是离散的。

回归算法实例代码

机器学习机器 span class style 回归概率论 python 人工智能

有关机器学习（一）回归算法的更多相关文章

ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞

机器学习（一）回归算法