草庐IT

什么是Z-score?有哪些使用场景?

Z_bioinfo 2023-03-28 原文

Z-score (z值, z分数,标准分数)

1.什么是 Z-score

image.png

Z值(z-score,z-values, normal score)又称标准分数(standard score, standardized variable),是一个实测值与平均数的差再除以标准差的过程。Z score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z score分值进行比较。

用公式表示为:

z=(x-μ)/σ

x为某实测值,μ为平均数,σ为标准差

Z值的量代表着实测值和总体平均值之间的距离,是以标准差为单位计算。

大于平均数的实测值会得到一个正数的Z值,小于平均数的实测值会得到一个负数的Z值。

一句话:

Z score通过(x-μ)/σ将两组或多组数据转化为无单位的Z score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。


image.png

2.Z score的定义

Z score处理方法处于整个框架中的数据准备阶段。也就是说,它是数据预处理阶段中的重要步骤。

数据分析与挖掘中,很多方法需要样本符合一定的标准,如果需要分析的诸多自变量不是同一个量级,就会给分析工作造成困难,甚至影响后期建模的精准度。

举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。

那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。

下图描述了Z-Score的定义以及各种特征。

3.Z-score的目的

如上图所示,Z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的Z-score值衡量,以保证数据之间的可比性。Z值可以告诉我们整个数据相对于总体平均值的位置。Z 分数越高或越低,结果就越不可能偶然发生,结果就越有可能有意义。

4.Z-score的理解与计算

在对数据进行Z-score标准化之前,我们需要得到如下信息:

1)总体数据的均值(μ)

 在上面的例子中,总体可以是整个班级的平均分,也可以是全市、全国的平均分。

2)总体数据的标准差(σ)

 这个总体要与1)中的总体在同一个量级。

3)个体的观测值(x)

在上面的例子中,即A与B各自的成绩。

通过将以上三个值代入Z-score的公式,即:

我们就能够将不同的数据转换到相同的量级上,实现标准化。

重新回到前面的例子,假设:A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。

通过上面的公式,我们可以计算得出,A的Z-score是1((90-80)/10),B的Z-score是2((600-400)/100)。因此B的成绩更为优异。

反之,若A考了60分,B考了300分,A的Z-Score是-2,B的Z-Score是-1。因此A的成绩更差。

因此,可以看出来,通过Z-score可以有效的把数据转换为统一的标准,但是需要注意,并进行比较。Z-score本身没有实际意义,它的现实意义需要在比较中得以实现,这也是Z-score的缺点之一。


image.png

5.Z-score的优缺点

Z-score最大的优点就是简单,容易计算,很多工具中,比如R,不需要加载包,仅仅凭借最简单的数学公式就能够计算出Z-score并进行比较。此外,Z-score能够应用于数值型的数据,并且不受数据量级的影响,因为它本身的作用就是消除量级给分析带来的不便。

但是Z-score应用也有风险。首先,估算Z-score需要总体的平均值与方差,但是这一值在真实的分析与挖掘中很难得到,大多数情况下是用样本的均值与标准差替代。其次,Z-score对于数据的分布有一定的要求,正态分布是最有利于Z-score计算的。最后,Z-score消除了数据具有的实际意义,A的Z-score与B的Z-score与他们各自的分数不再有关系,因此Z-score的结果只能用于比较数据间的结果,数据的真实意义还需要还原原值。


image.png

6.Z-score的应用实例

假设国家女排队员身高平均值1.94米,标准差0.2(标准差代表了不同队员身高值的差异程度,又称为变异度)。某天,有一位身高1.2米的女子提出想申请加入国家队,我们如何衡量这名女子与国家女排队员的身高差异程度呢?

第一,这名女子的身高离女排队的平均身高相差有多远?

实测值-平均值=1.2-1.94=-0.74(米)

第二,上述差值(-0.74米)是一个数值,在国家队中这个差别是什么概念,能否量化?我们已知国家女排队员身高的差异程度是标准差,那如果我们计算出上述差值是标准差的多少倍,就可以用来表达这个差值的变异程度。

实测值-平均值/标准差=-0.74/0.2=-3.7(倍)

这里的-3.7就是Z值。同理,一名身高2.6米的女子申请加入国家女排队,她的身高Z值为3.3。

为什么大多数指标均要求正常Z值区间为[-3,3]呢?这是一个纯统计学问题,大家记住即可:

Z值落在区间[-3,3],我们所测值在总群体的发生概率为99.7%,超出这个区间的概率为0.3%。

所以,上面例子中1.2米和2.6米身高的两名女子出现在国排队的概率均小于0.3%,均不满足身高要求。事实上,国家女子排队的身高Z值区间标准可能更小,如[-0.5,0.5]。


image.png

有关什么是Z-score?有哪些使用场景?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  5. ruby - 在 Ruby 中使用匿名模块 - 2

    假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

  6. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

    我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

  7. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  8. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  9. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  10. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

随机推荐