一元线性回归及案例（Python）

QYiRen 2023-05-02 原文

1 一元线性回归简介

线性回归模型是利用线性拟合的方式探寻数据背后的规律。如下图所示，先通过搭建线性回归模型寻找这些散点（也称样本点）背后的趋势线（也称回归曲线），再利用回归曲线进行一些简单的预测分析或因果关系分析。

在线性回归中，根据特征变量（也称自变量）来预测反应变量（也称因变量）。

根据特征变量的个数可将线性回归模型分为一元线性回归和多元线性回归。

例如，通过“工龄”这一个特征变量来预测“薪水”，就属于一元线性回归；

而通过“工龄”“行业”“所在城市”等多个特征变量来预测“薪水”，就属于多元线性回归。

2 一元线性回归数学形式

一元线性回归模型又称为简单线性回归模型，其形式可以表示为如下所示的公式。

y＝ax＋b （y为因变量，x为自变量，a为回归系数，b为截距。）

如下图所示，其中为实际值，为预测值，一元线性回归的目的就是拟合出一条线来使得预测值和实际值尽可能接近，如果大部分点都落在拟合出来的线上，则该线性回归模型拟合得较好。

使用残差平方和衡量实际值与预测值之间的接近程度。

使用最小二乘法求系数与截距。假设线性回归模型的拟合方程为y＝ax＋b，那么残差平方和（损失函数）可以定义成如下所示的公式。

拟合的目的是使残差平方和尽可能地小，即实际值和预测值尽可能地接近。根据高等数学中求极值的相关知识，通过对残差平方和进行求导（对a和b进行求导），导数为0时，该残差平方和将取极值，此时便能获得拟合需要的系数a和截距b了。

3 案例：不同行业工龄与薪水的线性回归模型

3.1 案例背景

通常来说，薪水会随着工龄的增长而增长，不同行业的薪水增长速度有所不同。本案例要应用一元线性回归模型探寻工龄对薪水的影响，即搭建薪水预测模型，并通过比较多个行业的薪水预测模型来分析各个行业的特点。

3.2 具体代码

# 导入设置
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# 设置显示中文
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False

#读取数据
df = pd.read_excel('IT行业收入表.xlsx')
df.head(10)
X = df[['工龄']]  #这里的自变量必须写成二维形式，一个因变量可能对应多个自变量
Y = df['薪水']

# 模型搭建
model = LinearRegression()
model.fit(X,Y)

# 模型可视化
plt.scatter(X,Y)
plt.plot(X,model.predict(X),color='red')
plt.xlabel('工龄')
plt.ylabel('薪水')
plt.show()

#查看系数,截距：线性回归方程构造
model.coef_,model.intercept_

3.3 模型优化

一元多次线性回归模型。

之所以还需要研究一元多次线性回归模型，是因为有时真正契合的趋势线可能不是一条直线，而是一条曲线。根据一元二次线性回归模型绘制的曲线更契合散点图呈现的数据变化趋势。

具体代码如下：

# 用于增加一个多次项内容的模块PolynomialFeatures
from sklearn.preprocessing import PolynomialFeatures

# 设置最高次项为二次项，为生成二次项数据（x^2）做准备
poly_reg = PolynomialFeatures(degree=2)

# 将原有的X转换为一个新的二维数组X_，该二维数组包含新生成的二次项数据（x^2）和原有的一次项数据（x）。
X_ = poly_reg.fit_transform(X)

model = LinearRegression()
model.fit(X_,Y)

plt.scatter(X,Y)
plt.plot(X,model.predict(X_),color='r')
plt.show()

model.coef_,model.intercept_

说明：

X_此时的结构：

查看系数和截距：

系数，有3个数：第1个数0对应X_中常数项的系数；第2个数对应X_中一次项（x）的系数，即系数b；第3个数对应X_中二次项（x^2）的系数，即系数a。

截距，常数项c。因此，拟合得到的一元二次线性回归方程为y＝400.8x2-743.68x＋13988。

4 总体展示

5 线性回归模型评估

模型搭建完成后，还需要对模型进行评估，这里主要以3个值作为评判标准：

R-squared（即统计学中的R2）、Adj.R-squared（即Adjusted R2）、P值。

其中R-squared和Adj.R-squared用来衡量线性拟合的优劣，P值用来衡量特征变量的显著性。

R-squared和Adj.R-squared的取值范围为0～1，它们的值越接近1，则模型的拟合程度越高；P值在本质上是个概率值，其取值范围也为0～1，P值越接近0，则特征变量的显著性越高，即该特征变量真的和目标变量具有相关性。

import statsmodels.api as sm

# add_constant()函数给原来的特征变量X添加常数项，并赋给X2，这样才有y＝ax＋b中的常数项，即截距b
X2 = sm.add_constant(X)
# 用OLS()和fit()函数对Y和X2进行线性回归方程搭建
est = sm.OLS(Y,X).fit()
est.summary()

左下角的coef就是常数项（const）和特征变量（工龄）前的系数，即截距b和斜率系数a。

对于模型评估而言，通常需要关心上图中的R-squared、Adj.R-squared和P值信息。这里的R-squared为0.855，Adj.R-squared为0.854，说明模型的线性拟合程度较高；这里的P值有两个，常数项（const）和特征变量（工龄）的P值都约等于0，所以这两个变量都和目标变量（薪水）显著相关，即真的具有相关性，而不是由偶然因素导致的。

获取R-squared值的另一种方法：

from sklearn.metrics import r2_score
r2 = r2_score(Y,model.predict(X))

Y为实际值，regr.predict（X）为预测值，打印输出r2的结果为0.855，与利用statsmodels库获得的评估结果是一致的。

6 模型评估的数学原理

6.1 R-squared

要想理解R-squared，得先了解3组新的概念：整体平方和TSS、残差平方和RSS、解释平方和ESS，它们的关系如下图所示。

其中Yi为实际值，Yfitted为预测值，Ymean为所有散点的平均值，R2为R-squared值。

对于一个拟合程度较高的线性回归模型，我们希望其实际值要尽可能落在拟合曲线上，即残差平方和RSS尽可能小，根据R-squared的计算公式R2＝1-（RSS/TSS），也就是希望R-squared尽可能大。当RSS趋向于0时，说明实际值基本都落在了拟合曲线上，模型的拟合程度非常高，那么此时R-squared趋向于1，所以在实战当中，R-squared越接近1，模型的拟合程度越高。不过拟合程度也不是越高越好，拟合程度过高可能会导致过拟合现象。

插曲：过拟合与欠拟合

如下图所示，过拟合即过度拟合，是指模型在训练样本中拟合程度过高，虽然它很好地贴合了训练集数据，但是丧失了泛化能力，不具有推广性，也就是说，如果换了训练集以外的数据就达不到较好的预测效果。与过拟合相对应的概念是欠拟合，欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能很好地拟合数据。

6.2 Adj.R-squared

Adj.R-squared是R-squared的改进版，其目的是为了防止选取的特征变量过多而导致虚高的R-squared。每新增一个特征变量，线性回归背后的数学原理都会导致R-squared增加，但是这个新增的特征变量可能对模型并没有什么帮助。为了限制过多的特征变量，引入了Adj.R-squared的概念，它在R-squared的基础上额外考虑了特征变量的数量这一因素，其公式如下。

其中n为样本数量，k为特征变量数量。从上述公式可以看出，特征变量数量k越大，其实会对Adj.R-squared产生负影响，从而告诫数据建模者不要为了追求高R-squared值而添加过多的特征变量。当考虑了特征变量数量后，Adj.R-squared就能够更准确地反映线性模型的拟合程度。

6.3 P值

P值涉及统计学里假设检验中的概念，其原假设为特征变量与目标变量无显著相关性，P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果该概率越大，即P值越大，原假设为真的可能性就越大，即无显著相关性的可能性越大；如果该概率越小，即P值越小，原假设为真的可能性就越小，即有显著相关性的可能性越大。所以P值越小，显著相关性越大。通常以0.05为阈值，当P值小于0.05时，就认为特征变量与目标变量有显著相关性。

参考书籍

《Python大数据分析与机器学习商业案例实战》

有关一元线性回归及案例（Python）的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案
.net - .NET 将如何影响 Python 和 Ruby 应用程序？ - 2
我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境，以至于它们实际上将变得特定于平台？如果他们不使用任何.NET功能，那么IronPython/IronRuby相对于非.NET同类产品的优势是什么？最佳答案我不能说任何关于IronRuby的东西，但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过，IronPython正在迅速成为这方面的佼佼者之一，并且在PlanetPyth