肯德尔（Kendall）相关系数概述及Python计算例

笨牛慢耕 2023-08-01 原文

1. 何谓相关（correlation）?

相关是指一种双变量分析（bi-variate analysis）技术，用于分析两个（随机）变量之间相互关联的强度和方向。相关系数的值域范围为[-1,1]，其中绝对值表示相关强度，正负号则表示相关的方向。相关系数为+/-1表示完全的关联。相关系数为0则表示两者完全没有任何关系。

例1。一般来说，一个人受教育水平越高他的收入就会更高一些（当然这是从统计平均的意义上来说），因此我们可以说收入水平与受教育水平是正相关的。

例2。一个联赛中各支球队的球员总身价越高，通常球队在联赛中的成绩（排名）就会越靠前，因此我们可以说球员总身价与联赛成绩是正相关的。

统计学上常用的相关分析有以下几种:

皮尔逊相关：Pearson correlation (parametric)
- 参见皮尔逊相关(Pearson correlation)系数概述及其计算例
斯皮尔曼相关：Spearman rank correlation (non-parametric)
- 参见斯皮尔曼相关(Spearman correlation)系数概述及其计算例
肯德尔相关：Kendall rank correlation (non-parametric)
Point-Biserial correlation.

本文讨论肯德尔相关（系数）。

2. 肯德尔相关

也称肯德尔秩相关（Kendall Rank Correlation），肯德尔相关系数通常也称为“Kendall’s tau coefficient”，顾名思义，肯德尔相关系数通常用希腊字母 $\tau$ 来表示（斯皮尔曼相关系数则用 $r$ 来表示，在scipy.stats中两个相关系数计算的函数名kendalltau()和spearmanr()非常清楚地）。

与斯皮尔曼秩相关相似的是，肯德尔相关也是一种秩相关系数，是基于数据对象的秩（rank）来进行两个（随机变量）之间的相关关系（强弱和方向）的评估。所分析的目标对象应该是一种有序的类别变量，比如名次、年龄段、肥胖等级(重度肥胖，中度肥胖、轻度肥胖、不肥胖)等。

不同的是，斯皮尔曼相关是基于秩差（比如说，小明在班级中的历史成绩排名为10，英语成绩排名为4，那么在这个班级的学生的历史成绩和英语成绩的斯皮尔曼相关分析中，小明的成绩的贡献就是(10-4=6) ）来进行相关关系的评估；而肯德尔相关则是基于样本数据对之间的关系来进行相关系数的强弱的分析，数据对可以分为一致对(Concordant)和分歧对(Discordant)。

比如说变量X的两个样本值记为 $x_1, x_2$ ，与之相对应的变量Y的两个样本值分别记为 $y_1, y_2$ 。

一致对(Concordant)是指两个变量的这一对样本值取值的相对关系一致，可以理解为 $x_2-x_1$ 与 $y_2-y_1$ 有相同的符号，即 $(x_2 - x_1)(y_2-y_1) \geq 0$ ；

分歧对是指这一对样本值取值的相对关系不一致，即 $(x_2 - x_1)(y_2-y_1) < 0$ 。

当数据样本比较小，而且存在并列排位（tied ranks，比如说小明的历史成绩和英语成绩排名都是第8名）时，肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。

适合于采用肯德尔相关系数分析的一些问题例如下所示：

学生的考试成绩分级 (A, B, C…) 和他平均每天学习所投入的时间分级 (<2 hours, 2–4 hours, 5–7 hours…)时间的相关性
顾客满意度 (比如说：非常满意，比较满意，一般。。。) 以及递送时间 (< 30 Minutes, 30 minutes — 1 Hour, 1–2 Hours etc)
。。。

3. 肯德尔相关的假设

在适用肯德尔相关分析前首先要检查数据是否满足以下基本假设，满足了这些基本假设才能确保你所得到的相关分析结果是有效的。

变量数据是有序的（ ordinal）或者是连续的（continuous）. 有序尺度（Ordinal scales ）的数据通常用于用数值的方式来衡量非数值的概念，比如说，满意度，幸福度等等，还有像成绩排名啊、比赛名次啊之类的。而连续尺度的数据就勿需解释了，常见的温度啊、体重啊、收入啊等等都（或严格、或近似）算是连续尺度的数据。
两个变量的数据之间应该遵循单调关系（ monotonic relationship）。简而言之就是，其中一个变量的值增大，另一个也增大，这个称为正相关；或者一个变量的值增大，另一个就变小，这个称为负相关。当然，这个单调关系是一个统计意义上的，或者说一种趋势上的，而非严格的单调。如下如所示。左图和中图都呈现一种近似单调的关系，而右图则不是，因为右图的左半部分和右半部分的趋势是相反的。

4. 计算公式及代码示例

肯德尔系数有两个计算公式，一个称为Tau-c，另一个称为Tau-b。两者的区别是Tau-b可以处理有相同值的情况，即并列排位(tied ranks)。下面分别说明这两个公式。

4.1 Tau-a

$\tau_a=\frac{c-d}{\frac{1}{2}n(n-1)}$

其中，n表示样本个数。如上所述，肯德尔相关系数是基于数据对来进行分析的，n个样本每两两组队所得到的组队数就是 $\frac{1}{2}n(n-1)$ ，Tau-a的分母即来自于此。分子中c和d则分别代表一致对和分歧对的个数。

计算例如下所示：

# Example4 -- Kendall correlation coefficient
from scipy.stats.stats import kendalltau

dat1 = np.array([3,5,1,9,7,2,8,4,6])
dat2 = np.array([5,3,2,6,8,1,7,9,4])
fig,ax = plt.subplots()
ax.scatter(dat1,dat2)
kendalltau(dat1,dat2)

KendalltauResult(correlation=0.3888888888888889, pvalue=0.18018077601410934)

当然也可以写一段自己的代码来实现相关系数的计算，这样能够更加确切地知道到底是如何计算的，代码示例如下：

c = 0
d = 0
for i in range(len(dat1)):
    for j in range(i+1,len(dat1)):
        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:
            c = c + 1
        else:
            d = d + 1
k_tau = (c - d) * 2 / len(dat1)/(len(dat1)-1)
            
print('k_tau = {0}'.format(k_tau))

运行以上代码同样可以得到0.3888...的结果，只不过没有给出p-value分析结果（这个稍微麻烦一些，此处暂且略过）。

4.2 Tau-b

在以上Tau-a的计算中假定原始数据中不存在并列排位。当原始数据中存在并列排位时，则用以下公式能够给出更准确的分析结果。

$\tau_b = \frac{c-d}{\sqrt{(c+d+t_x)(c+d+t_y)}}$

其中c和d则分别代表一致对和分歧对的个数， $t_x$ 和 $t_y$ 则分别表示数据X中的并列排位个数，和数据Y中的并列排位个数。注意，如果是同时发生在X和Y中并列排位，则既不计入 $t_x$ ，也不计入 $t_y$ 。

# Tau_b
from scipy.stats.stats import kendalltau

dat1 = np.array([3,5,1,6,7,2,8,8,4])
dat2 = np.array([5,3,2,6,8,1,7,8,4])
#dat1 = np.array([3,5,1,9,7,2,8,4,6])
#dat2 = np.array([5,3,2,6,8,1,7,9,4])
c = 0
d = 0
t_x = 0
t_y = 0
for i in range(len(dat1)):
    for j in range(i+1,len(dat1)):
        if (dat1[i]-dat1[j])*(dat2[i]-dat2[j])>0:
            c = c + 1
        elif (dat1[i]-dat1[j])*(dat2[i]-dat2[j])<0:
            d = d + 1
        else:
            if (dat1[i]-dat1[j])==0 and (dat2[i]-dat2[j])!=0:
                t_x = t_x + 1
            elif (dat1[i]-dat1[j])!=0 and (dat2[i]-dat2[j])==0:
                t_y = t_y + 1
                
tau_b = (c - d) / np.sqrt((c+d+t_x)*(c+d+t_y))
            
print('tau_b = {0}'.format(tau_b))            
print('kendalltau(dat1,dat2) =  {0}'.format(kendalltau(dat1,dat2)))

tau_b = 0.6857142857142857
kendalltau(dat1,dat2) =  KendalltauResult(correlation=0.6857142857142857, pvalue=0.011424737055271894)

注意，这个数据用上面的tao_a的计算方式会得到不同的结果，有兴趣的小伙伴可以自行验证。

Kendall Rank Correlation Explained. | by Joseph Magiya | Towards Data Science

scipy.stats.kendalltau — SciPy v1.9.1 Manual

肯德尔概述 xff xff0c xff0 python scipy.stats 概率统计相关系数

有关肯德尔（Kendall）相关系数概述及Python计算例的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2
项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明：前端使用微信微信小程序开发工具：后端使用ssm：VU
阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于