Pearson相关系数和Spearman相关系数的区别

S_AGZX 2023-08-30 原文

Pearson相关系数和Spearman相关系数的区别

参考资料前两个博客讲解的非常详细，因本人想要自己梳理下，才有此文，请直接跳转即可。

1、协方差、相关系数

（1）简单来说
协方差：变量具有 同增、同减 的趋势。趋势越接近，则相关性越大，反之越小。
相关系数：协方差的标准化，把数值控制在[-1,1]的区间表示。方便比较多组变量的相关性强弱。

（2）作用上来说
协方差描述两个变量之间相关的方向，相关系数解释相关的强度。

（3）复杂点说：协方差是随机变量离差之积，与随机变量分布函数乘积的积分，或者是就是离差乘积的期望。

（4）相关系数范围
相关系数是用以反映变量之间的相关关系程度的统计指标。其取值范围是[-1,1]，当取值为0时表示不相关，取值为[-1,0)表示负相关，取值为(0,-1]，表示负相关。

方差与协方差的区别：

参考视频:十分钟理解协方差和相关系数、如何通俗地解释协方差

2、Pearson相关系数

皮尔森相关系数评估两个连续变量之间的 线性关系，是用来衡量两个数据集的线性相关程度。
数据集要 符合正态分布、无异常值、连续变量 等特定。

3、Spearman相关系数

3.1 定义

斯皮尔曼相关系数评估两个连续变量之间的单调关系。在单调关系中，变量趋于一起变化，但不一定以恒定速率变化。
它也被称为等级相关或者秩相关（即rank）。

3.2 什么时候用

当 （1）分布严重非正态；（2）变量非连续；（3）异常值影响大， 的时候，要舍弃Pearson相关系数。

4、两者的区别点

4.1 线性相关与单调相关

Pearson相关系数是用来衡量两个数据集（变量）的线性相关程度。而Spearman相关系数不关心两个数据集是否线性相关，而是单调相关。
在单调关系中，变量倾向于沿着相同的相对方向移动，但不一定以恒定的速率移动。在线性关系中，变量沿着相同的方向以恒定的速率移动。

4.2 前提假设不同

Pearson相关假设数据集在同一条直线上，而Spearman只要求单调递增或者递减，所以Pearson的统计效力比Spearman要高。
更重要的是，要根据实际情况选择正确的假设。

比如，某个实验做了两次技术或者生物学重复，那有理由假设这两次重复线性相关。而如果是一个基因和另一个受到调控的基因的表达水平，或者某个基因顺式作用元件的染色质开放程度，和这个基因表达水平之间的关系就可能只需要假设单调相关。

4.3 变量正态分布与否

Pearson相关系数要求数据集是连续型变量，并且符合正态分布，而Spearman相关系数没有这个要求；
Pearson相关系数在出现奇异值，或者长尾分布的时候稳定性差，不太可靠，而Spearman对于数据错误和极端值的反应不敏感。

5、实例展示

（1）上面两张图
如果对数据进行线性变换（y = ax + b; a ≠ 0），两者相关系数的绝对值都不会发生变化（要考虑下正负）；
上面两个图既是单调关系，也是线性关系。

（2）中间两张图
如果对数据进行单调但不线性的变换（比如最常见的log scale），Spearman相关系数的绝对值也不会发生变化。
两张图显示两个变量同时上升，但不以相同的速率上升。此关系是单调的，但不是线性的。

（3）下面两张图
左下图显示了当关系是随机的或不存在时，则两个相关系数几乎为零。
右下图显示了非常强的关系。Pearson系数和Spearman系数均约为0。

6、参考资料

有关Pearson相关系数和Spearman相关系数的区别的更多相关文章

ruby - 触发器 ruby 中 3 点范围运算符和 2 点范围运算符的区别 - 2
请帮助我理解范围运算符...和..之间的区别，作为Ruby中使用的“触发器”。这是PragmaticProgrammersguidetoRuby中的一个示例:a=(11..20).collect{|i|(i%4==0)..(i%3==0)?i:nil}返回:[nil,12,nil,nil,nil,16,17,18,nil,20]还有:a=(11..20).collect{|i|(i%4==0)...(i%3==0)?i:nil}返回:[nil,12,13,14,15,16,17,18,nil,20] 最佳答案触发器(又名f/f)是
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby-on-rails - `a ||= b` 和 `a = b if a.nil 之间的区别？ - 2
我正在检查一个Rails项目。在ERubyHTML模板页面上，我看到了这样几行:我不明白为什么不这样写:在这种情况下，||=和ifnil?有什么区别？最佳答案在这种特殊情况下没有区别，但可能是出于习惯。每当我看到nil?被使用时，它几乎总是使用不当。在Ruby中，很少有东西在逻辑上是假的，只有文字false和nil是。这意味着像if(!x.nil?)这样的代码几乎总是更好地表示为if(x)除非期望x可能是文字false。我会将其切换为||=false，因为它具有相同的结果，但这在很大程度上取决于偏好。唯一的缺点是赋值会在每次运行
ruby - 这两个 Ruby 类初始化定义有什么区别？ - 2
我正在阅读一本关于Ruby的书，作者在编写类初始化定义时使用的形式与他在本书前几节中使用的形式略有不同。它看起来像这样:classTicketattr_accessor:venue,:datedefinitialize(venue,date)self.venue=venueself.date=dateendend在本书的前几节中，它的定义如下:classTicketattr_accessor:venue,:datedefinitialize(venue,date)@venue=venue@date=dateendend在第一个示例中使用setter方法与在第二个示例中使用实例变量之间是
spring.profiles.active和spring.profiles.include的使用及区别说明 - 2
转自:spring.profiles.active和spring.profiles.include的使用及区别说明下文笔者讲述spring.profiles.active和spring.profiles.include的区别简介说明,如下所示我们都知道，在日常开发中,开发|测试|生产环境都拥有不同的配置信息如：jdbc地址、ip、端口等此时为了避免每次都修改全部信息，我们则可以采用以上的属性处理此类异常spring.profiles.active属性例：配置文件,可使用以下方式定义application-${profile}.properties开发环境配置文件:application-dev
ruby - 这两段代码有什么区别？ - 2
打印1:defsum(i)i=i+[2]end$x=[1]sum($x)print$x打印12:defsum(i)i.push(2)end$x=[1]sum($x)print$x后者是修改全局变量$x。为什么它在第二个例子中被修改而不是在第一个例子中？类Array的任何方法(不仅是push)都会发生这种情况吗？最佳答案变量范围在这里无关紧要。在第一段代码中，您仅使用赋值运算符=为变量i赋值，而在第二段代码中，您正在修改$x(也称为i)使用破坏性方法push。赋值从不修改任何对象。它只是提供一个名称来引用一个对象。方法要么是破坏性
ruby - Ruby 中 .next 和 .succ 的区别 - 2
Ruby中的Fixnum方法.next和.succ有什么区别？看起来它的工作原理是一样的:1.next=>21.succ=>2如果有什么不同，为什么有两种方法做同样的事情？最佳答案它们是等价的。Fixnum#succ只是Fixnum#next的同义词。他们甚至在thereferencemanual中共享同一block. 关于ruby-Ruby中.next和.succ的区别，我们在StackOverflow上找到一个类似的问题： https://stacko
ruby - 在参数为 `yield self` 的方法中使用 `&block` 和在没有参数 `yield self` 的方法中使用 `&block` 有什么区别吗？ - 2
我明白了defa(&block)block.call(self)end和defa()yieldselfend导致相同的结果，如果我假设有这样一个blocka{}。我的问题是-因为我偶然发现了一些这样的代码，它是否有任何区别或者是否有任何优势(如果我不使用变量/引用block):defa(&block)yieldselfend这是一个我不理解&block用法的具体案例:defrule(code,name,&block)@rules=[]if@rules.nil?@rules 最佳答案我能想到的唯一优点就是自省(introspecti
ruby - 无法理解 `puts{}.class` 和 `puts({}.class)` 之间的区别 - 2
由于匿名block和散列block看起来大致相同。我正在玩它。我做了一些严肃的观察，如下所示:{}.class#=>Hash好的，这很酷。空block被视为Hash。print{}.class#=>NilClassputs{}.class#=>NilClass为什么上面的代码和NilClass一样，下面的代码又显示了Hash？puts({}.class)#Hash#=>nilprint({}.class)#Hash=>nil谁能帮我理解上面发生了什么？我完全不同意@Lindydancer的观点你如何解释下面几行:print{}.class#NilClassprint[].class#A
ruby-on-rails - 在具有 ActiveRecord 条件的相关模型中按字段排序 - 2
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤？元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于，在优先级模型中，一个项目可能会被多家公司列出。因此，这些职位取决于他们拥有的company_id。当我显示项目时，它是针对一个公司的，按公司内的职位排序。完成此任务的正确方法是什么？感谢您的帮助。PS-我

Pearson相关系数和Spearman相关系数的区别