Scipy 显著性检验

runoob 2023-04-07 原文

Scipy 显著性检验

显著性检验（significance test）就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对我们对总体所做的假设做检验，其原理就是"小概率事件实际不可能性原理"来接受或否定假设。

显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异，以及这种差异是否显著的方法。

SciPy 提供了 scipy.stats 的模块来执行Scipy 显著性检验的功能。

统计假设

统计假设是关于一个或多个随机变量的未知分布的假设。随机变量的分布形式已知，而仅涉及分布中的一个或几个未知参数的统计假设，称为参数假设。检验统计假设的过程称为假设检验，判别参数假设的检验称为参数检验。

零假设

零假设（null hypothesis），统计学术语，又称原假设，指进行统计检验时预先建立的假设。零假设成立时，有关统计量应服从已知的某种概率分布。

当统计量的计算值落入否定域时，可知发生了小概率事件，应否定原假设。

常把一个要检验的假设记作 H0，称为原假设（或零假设） (null hypothesis) ，与 H0 对立的假设记作 H1，称为备择假设(alternative hypothesis) 。

在原假设为真时，决定放弃原假设，称为第一类错误，其出现的概率通常记作 α；
在原假设不真时，决定不放弃原假设，称为第二类错误，其出现的概率通常记作 β
α+β 不一定等于 1。

通常只限定犯第一类错误的最大概率 α，不考虑犯第二类错误的概率 β。这样的假设检验又称为显著性检验，概率 α 称为显著性水平。

最常用的 α 值为 0.01、0.05、0.10 等。一般情况下，根据研究的问题，如果放弃真假设损失大，为减少这类错误，α 取值小些，反之，α 取值大些。

备择假设

备择假设(alternative hypothesis)是统计学的基本概念之一，其包含关于总体分布的一切使原假设不成立的命题。备择假设亦称对立假设、备选假设。

备择假设可以替代零假设。

例如我们对于学生的评估，我们将采取：

“学生比平均水平差” -—  作为零假设

“学生优于平均水平” —— 作为替代假设。

单边检验

单边检验(one-sided test)亦称单尾检验，又称单侧检验，在假设检验中，用检验统计量的密度曲线和二轴所围成面积中的单侧尾部面积来构造临界区域进行检验的方法称为单边检验。

当我们的假设仅测试值的一侧时，它被称为"单尾测试"。

例子：

对于零假设：

“均值等于 k”

我们可以有替代假设：

“平均值小于 k”
或
“平均值大于 k”

双边检验

边检验(two-sided test)，亦称双尾检验、双侧检验.在假设检验中，用检验统计量的密度曲线和x轴所围成的面积的左右两边的尾部面积来构造临界区域进行检验的方法。

当我们的假设测试值的两边时。

例子：

对于零假设：

“均值等于 k”

我们可以有替代假设：

“均值不等于k”

在这种情况下，均值小于或大于 k，两边都要检查。

阿尔法值

阿尔法值是显著性水平。

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，用 α 表示。

数据必须有多接近极端才能拒绝零假设。

通常取为 0.01、0.05 或 0.1。

P 值

P 值表明数据实际接近极端的程度。

比较 P 值和阿尔法值(alpha)来确定统计显著性水平。

如果 p 值 <= alpha，我们拒绝原假设并说数据具有统计显著性，否则我们接受原假设。

T 检验（T-Test）

T 检验用于确定两个变量的均值之间是否存在显著差异，并判断它们是否属于同一分布。

这是一个双尾测试。

函数 ttest_ind() 获取两个相同大小的样本，并生成 t 统计和 p 值的元组。

查找给定值 v1 和 v2 是否来自相同的分布：

实例

import numpy as np
from scipy.stats import ttest_ind

v1 = np.random.normal(size=100)
v2 = np.random.normal(size=100)

res = ttest_ind(v1, v2)

print(res)

输出结果为：

Ttest_indResult(statistic=0.40833510339674095, pvalue=0.68346891833752133)

如果只想返回 p 值，请使用 pvalue 属性：

实例

import numpy as np
from scipy.stats import ttest_ind

v1 = np.random.normal(size=100)
v2 = np.random.normal(size=100)

res = ttest_ind(v1, v2).pvalue

print(res)

输出结果为：

0.68346891833752133

KS 检验

KS 检验用于检查给定值是否符合分布。

该函数接收两个参数；测试的值和 CDF。

CDF 为累积分布函数(Cumulative Distribution Function)，又叫分布函数。

CDF 可以是字符串，也可以是返回概率的可调用函数。

它可以用作单尾或双尾测试。

默认情况下它是双尾测试。我们可以将参数替代作为两侧、小于或大于其中之一的字符串传递。

查找给定值是否符合正态分布：

实例

import numpy as np
from scipy.stats import kstest

v = np.random.normal(size=100)

res = kstest(v, 'norm')

print(res)

输出结果为：

KstestResult(statistic=0.047798701221956841, pvalue=0.97630967161777515)

数据统计说明

使用 describe() 函数可以查看数组的信息，包含以下值：

nobs -- 观测次数
minmax -- 最小值和最大值
mean -- 数学平均数
variance -- 方差
skewness -- 偏度
kurtosis -- 峰度

显示数组中的统计描述信息：

实例

import numpy as np
from scipy.stats import describe

v = np.random.normal(size=100)
res = describe(v)

print(res)

输出结果为：

DescribeResult(
    nobs=100,
    minmax=(-2.0991855456740121, 2.1304142707414964),
    mean=0.11503747689121079,
    variance=0.99418092655064605,
    skewness=0.013953400984243667,
    kurtosis=-0.671060517912661
  )

正态性检验（偏度和峰度）

利用观测数据判断总体是否服从正态分布的检验称为正态性检验，它是统计判决中重要的一种特殊的拟合优度假设检验。

正态性检验基于偏度和峰度。

normaltest() 函数返回零假设的 p 值：

“x 来自正态分布”

偏度

数据对称性的度量。

对于正态分布，它是 0。

如果为负，则表示数据向左倾斜。

如果是正数，则意味着数据是正确倾斜的。

峰度

衡量数据是重尾还是轻尾正态分布的度量。

正峰度意味着重尾。

负峰度意味着轻尾。

查找数组中值的偏度和峰度：

实例

import numpy as np
from scipy.stats import skew, kurtosis

v = np.random.normal(size=100)

print(skew(v))
print(kurtosis(v))

输出结果为：

 0.11168446328610283
  -0.1879320563260931

查找数据是否来自正态分布：

实例

import numpy as np
from scipy.stats import normaltest

v = np.random.normal(size=100)

print(normaltest(v))

输出结果为：

NormaltestResult(statistic=4.4783745697002848, pvalue=0.10654505998635538)

有关Scipy 显著性检验的更多相关文章

ruby-on-rails - 检验 gem 的正确方法 - 2
如果gem具有rails依赖项，您认为以可以独立运行或在rails项目下运行的方式编写gem测试更好吗？最佳答案 gem应该是一段独立运行的代码。否则它是应用程序的一部分，因此测试也应该独立创建。通过这种方式，其他人(假设)也可以执行测试。如果测试依赖于您的应用程序，则其他人无法测试您的gem。此外，当您想要测试您的gem时，它不应该因为您的应用程序失败而失败。在您的gem通过测试后，您可以测试应用程序，知道您的gem运行良好(假设您测试了所有内容)。gem是否依赖于Rails不是问题，因为Rails也已经过测试(您可以假设它工作
python - 安装 SciPy 导入错误 - 2
我在尝试在Windows上安装SciPy包时遇到了严重的麻烦...我不断收到此错误:ImportError:Importingthemultiarraynumpyextensionmodulefailed.Mostlikelyyouaretryingtoimportafailedbuildofnumpy.Ifyou'reworkingwithanumpygitrepo,trygitclean-xdf(removesallfilesnotunderversioncontrol).Otherwisereinstallnumpy.Originalerrorwas:DLLloadfailed:
python - 我可以在 Windows 32 上免费将 numpy 和 scipy 编译为 egg 吗？ - 2
我被要求提供Numpy和Scipy作为pythonegg文件。不幸的是，Numpy和Scipy没有以.egg形式为Win32平台正式发布他们的产品——这意味着如果我想要egg，那么我必须自己编译它们。目前我的雇主提供VisualStudio.Net2003，它不会编译任何晚于1.1.1的Numpy版本——随后发布的每个版本都不能用VS2003编译。我真正想要的是一些我可以使用的其他编译器，也许是免费的，但作为免费的限时试用而被推送……我可以用它来编译鸡蛋。有没有人知道我可以免费获得和使用另一个编译器，并且肯定会在Windows上编译Numpy？请仅在您知道它会编译Numpy的事实时才提
c++ - 数组参数的完整性检查(strlen 等) - 2
无法通过搜索找到答案(可能是错误的关键字)，所以我正在创建一个新问题。您如何处理带有字符串参数的dll导出方法的参数检查。一般规则是永远不会信任用户，但实际上呢？例如:intfoo(constchar*bar){if(!bar)returnFAIL;???}假设库的用户像这样调用我们的函数:foo(reinterpret_cast(0x00000008));这应该首先导致AV:strlen(bar);有没有办法防止这种情况发生？处理错误的正确方法？我知道IsBadReadPtr是不可能的，因为这个函数属于危险类，永远不能使用。但是，有什么办法可以解决这个问题吗？我不能__declpec
python - cx_Freeze 5.0 : ImportError: No module named 'scipy.__config__' - 2
问题尝试运行使用cx_Freeze构建的.exe时出现以下错误:File"C:\\WinPython-64bit-3.5.2.3Qt5\python-3.5.2.amd64\lib\site-packages\scipy\__init__py",line105infromscipy.__config__importshowasshow_configImportError:Nomodulenamed'scipy.__config__'Duringhandlingoftheaboveexception,anotherexceptionoccurred:...File"C:\\WinPyth
windows - 在离线 Windows 机器上安装 Python 包(numpy、scipy、statsmodels 等) - 2
我已经在机器上成功安装了python3.5但我需要某些软件包，例如numpy,scipy,pandas,statsmodels等也安装在上面。计算机没有连接到Internet但有一个USB端口，所以有没有办法在笔式驱动器并将它们安装到Windows计算机上？我发现了一些可以在ubuntu上完成的事情我从另一台计算机获取软件包及其依赖项并将它们安装在实际运行良好的离线计算机上的机器here.Windows上是否有类似的替代方案？最佳答案对于任何绝望地来到这里的人，我用这个page解决了我的问题由ChristianGohlke维护。
我国工业互联网产业发展成效显著，但技术挑战仍是一项长期工程 - 2
工业互联网是新一代通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态。工业互联网不仅仅是互联网在工业的简单应用，且具有更为丰富的内涵和外延。工业互联网已连续多年被写入《政府工作报告》，我国发展工业互联网有很大的决心。根据工信部机构数据显示，目前我国工业互联网产业规模已迈过万亿元大关。我国工业互联网迈出了坚实步伐，基础体系更加完善，具有一定行业和区域影响力的工业互联网平台超过150个，“综合型+专业型+特色型”平台体系初步构建，工业互联网发展成效显著。工业互联网在发展中成效与挑战并存。一方面，我国工业门类众多，工控协议复杂多样，加大了设备互联互通的难度。另一方面，不同企业数字化水平差异
c# - 从 C#(使用 SciPy)调用 IronPython 失败，出现 ImportException : "No module named mtrand" - 2
我有一个python库，我正尝试通过IronPython(v2.7RC1[2.7.0.30])从C#应用程序调用来使用。该库相当广泛地使用NumPy和SciPy，它们确实可以使用SciPyandNumPyfor.NET当像这样从命令行使用ipy运行时:ipy.exe-X:Framesfile_from_lib_importing_numpy.py但是，当我使用下面的代码从C#调用IronPython时，会抛出一个异常:ImportException"Nomodulenamedmtrand"atMicrosoft.Scripting.Runtime.LightExceptions.Che
假设检验：如何理解单侧、双侧检验的拒绝域 - 2
简单说就是：拒绝域与备择假设方向相同。假设检验就是一个证伪的过程，原假设和备择假设是一对"相反的结论"。"拒绝域"，顾名思义，就是拒绝原假设的范围和方向，所以判断拒绝域在哪，可以直接看备择假设H1的条件是大于还是小于即可。上述只是判断方法之一，但如果你能明白置信区间原理，自然就可以明白单侧假设检验的位置了。从置信区间角度讲：例如，某个糖果厂宣称自家糖果的平均重量方法1：平均重量是6.5方法2：平均重量在[6.5-误差，6.5+误差]之间，置信度为0.95方法1是一种点估计方法，只给出了一个近似值，但没有给出这个近似值的范围和置信度，因此方法1的结果相对方法2并不可靠。双侧、单侧检验其实
时间序列—显著相关性和滞后性分析_python - 2
?作者简介：大家好我是hellobigorange,大家可以叫我大橙子?本文摘要：本文讲述了两个时间序列(信号)的相关性分析，可以利用相关性分析进行特征筛选。此外本文还讲了怎么判断时间序列的滞后性的方法。文章目录一、分析数据的相关性和滞后性的必要性1.1相关性1.2滞后性二、相关性分析2.1皮尔逊相关系数2.2负荷相关性分析_python实现2.2灰色关联度分析2.3其他方法2.4特征相关性、显著性分析热力图可视化三、滞后性3.1TLCC3.2互相关性参考链接一、分析数据的相关性和滞后性的必要性1.1相关性在使用机器学习模型对数据进行

Scipy 显著性检验

Scipy 显著性检验

统计假设

零假设

备择假设

单边检验

双边检验

阿尔法值

P 值

T 检验（T-Test）

实例

实例

KS 检验

实例

数据统计说明

实例

正态性检验（偏度和峰度）

偏度

峰度

实例

实例

有关Scipy 显著性检验的更多相关文章

随机推荐