数据质量测试：测试数据有效性和准确性的方法

测试界的飘柔 2023-04-11 原文

以下为作者观点，来看看你认同吗？

如果西西弗斯（编者注：希腊神话中的人物）是一个数据分析师或数据科学家，他在山上滚动的巨石将是他的数据质量保障。即使所有获取、处理和建模的工程流程都无懈可击，但在数据管道的任何阶段测试数据质量的能力，以及面对 "Is this OK "的问题，已经够难了。

为什么呢？因为很难定义OK的含义。

传统上，数据质量被分成6个方面。

准确性：一项信息在多大程度上反映了现实？
完备性：它是否满足你对全面性的期望？
连贯性：存储在一个地方的信息与存储在其他地方的相关数据是否一致？
及时性：当你需要时，你的信息是否可用？
有效性：信息是否有特定的格式、类型或大小？它是否遵循业务规则/最佳实践？
完整性：不同的数据集能否被正确地连接起来，以反映一个更大的画面？关系是否被很好地定义和实施？

这些维度是在对设计数据仓库采取广泛的观点时定义的。考虑了所有定义和收集的数据集，它们之间的关系，以及正确服务于组织的能力。

当我们看一个单一的数据集时，我们的质量考虑就比较“狭窄”:

它不需要完整性，因为其他数据集可能会弥补。
一致性和完整性是不相关的，因为其他数据集没有被考虑。
时效性主要取决于工程管道的运作，而不是数据的质量。

在我们的案例中，问一个数据集是否可以，等于问 “它是否有效和准确？”。

在这篇文章中，我将描述有效性测试，分解准确性测试的概念，并回顾现有的测试框架。

验证：元数据测试

元数据是描述数据的信息，而不是数据本身。例如，如果数据是一个表，元数据可能包括模式，例如列的数量，以及每一列中变量的名称和类型。如果数据是在一个文件中，文件格式和其他描述性参数，如版本、配置和压缩类型可能是元数据的一部分。

测试的定义很直接：对元数据的每个值都有一个期望，这个期望来自于组织的最佳实践和它必须遵守的规定。如果你是一个软件工程师，这种类型的测试非常像一段代码的单元测试。就像单元测试覆盖率一样，可能需要一些时间来创建所有这些测试，但达到高测试覆盖率是可能的。

每当元数据改变时，维护测试也是需要的。当然期望值往往有差距，当我们习惯于在改变代码时更新我们的单元测试时，我们必须愿意投入同样的时间和注意力，在我们的模式演变时维护元数据的验证。

`数据准确性的三种类型`

类型1：入门级的事实核查

我们收集的数据来自于我们周围的现实，因此它的一些属性可以通过与已知记录的比较来验证，例如:

这个地址是真实的吗？
这是一个活跃的网页吗？
我们是否出售这个名字的产品？
对于价格栏，其数值是否为非负值？
对于一个强制性的字段，它不是空的吗？
值来自于一个给定的范围，所以最小和最大是已知的。

获取验证值通常需要查询另一个能够可靠地提供答案的数据集。这个数据集可以是公司内部的，比如人力资源系统中的雇员记录。以及公司外部的来源，如街道、城市、国家注册数据库等。

一旦获得了验证值，测试本身就是一个简单的比较/包含查询，其准确性仅限于所用的外部数据集的准确性。

这个测试验证了数据本身，而不是其元数据。最好是在收集数据的时候尽可能地进行这种验证，以避免准确性问题。例如，如果数据是由一个人填表收集的，数字表格可以只提供有效的选项。由于这并不总是可能的，建议在获取阶段对数值进行验证。

类型2：设置级别健全性

事实核查是测试单一记录中的一个值。当涉及到大数据时，我们需要测试我们拥有的集合的属性。这个集合可能包括来自某个时间段的数据，来自某个操作系统的数据，ETL过程的输出，或者一个模型。不管它的来源是什么，它作为一个集合都有我们想要验证的特征。这些特征是统计学上的，比如说：

数据预计来自于一个给定的分布。
平均数、方差或中位数的值被预期在一个给定的范围内的概率很高。

统计学测试仍然需要你知道预期，但你的预期现在有了不同的形式。

这个数据来自这个分布的概率够高吗？
这一栏的平均值应该在这个范围内，概率为95%。

想象一下，一张保存着扑克游戏中发给玩家的手牌的表格。在这种情况下，可以预先计算出手牌的预期分布。

我们进行的测试将查看持有发牌手数的那一列的数值，并询问，这组数值来自预期分布的概率是多少？

在这个统计测试中，定义通过/失败的参数将必须是概率性的。如果分布是均匀的，概率小于X%，你会得到一个警报。当然，你宁愿手动检查一个被警告的数据集，也不愿意让一个错误连带着进入你的数据管道。

类型3：基于历史的集合级别的正确性

就像统计准确性测试一样，我们要看的是一组记录的属性。只是在这种情况下，我们没有一个现实世界的真相来源可以依赖。我们有数据集本身的历史：同一个数据集随着时间的推移而演变。

我们可以使用这些历史数据来创建一个数据特征的基线，然后测试今天的新数据集是否与基线一致。

我们可以从历史数据中推断出一些特征的例子。

某一列中数值的期望值和方差。
某一列中数值的分布，如一天中每分钟的事件数量。
寻找数据的特征和它们的预期分布。
预计随着时间的推移，会有一定的季节性，例如黑色星期五的销售高峰，周末的流量较少。
运行异常检测算法，查看特征的历史，看看当前的值是否正常。

学习基线不仅为测试结果增加了概率方面，也为基线值的有效性增加了概率。我们执行与类型2相同的统计测试，但我们对其正确性有一个额外的风险，因为我们所比较的基线只有一定的概率是正确的，因为它是从历史数据中统计推导出来的。

我们还应该进行这个测试吗？如果基线正确的概率足够高，而且你明智地使用了阈值，那么绝对应该。建议你记住，警报系统需要在假阳性和假阴性之间取得平衡。

假阴性:测试失败，而它本应通过。
假阳性:测试通过了，而它应该是失败的。

你应该根据业务需要，以优化所需错误的方式构造你的测试。你会有错误，所以要确保你有你能接受的错误，而且是高概率的。

`推荐几个数据质量测试框架工具`

Deequ

一个来自AWS实验室的开源工具，可以帮助你定义和维护你的元数据验证。Deequ是一个建立在Apache Spark之上的库，用于定义 “数据的单元测试”，衡量大型数据集的数据质量。Deequ适用于表格数据，例如CSV文件、数据库表格、日志、扁平化的json文件。基本上任何你能装入Spark数据框架的东西。

该项目正在努力发展到上述的准确性测试，但其主要能力是在验证领域内。

Great Expectations

同样专注于验证，这个开源工具允许轻松地集成到你的ETL代码中，并可以测试来自SQL或文件接口的数据。由于它的结构是一个日志系统，它可以通过文档格式使用，并从定义的测试中创建自动文档。它还提供对数据进行剖析，并自动生成测试期间断言的预期。

Torch by Acceldata

Torch允许使用一个基于规则的引擎进行验证。可以根据你自己的领域专业知识和Torch提供的大量规则来定义规则。该系统提供了一些与数据集历史分析有关的能力，但这些都是非常基本的第二类测试。Acceldata为数据管道的可观察性提供了一套更广泛的工具，涵盖了数据质量的6个维度的其他方面，Torch是其模块之一。

OwlDQ

OwlDQ是基于对数据集的动态分析和对预期的自动适应。规则允许对要跟踪的特征进行定义，以及通过/失败的概率，但繁重的数据特征分析则留给了OwlDQ引擎。

MonteCarlo

这是一个无代码的实现可观察性平台。它使用机器学习来推断和学习你的数据是什么样子的，主动识别数据问题，评估其影响，并通过与普通运营系统的集成发出警报。它还可以进行根本原因分析。

Databand

一个管道元数据监控工具，也提供开箱即用的数据质量指标（如数据模式、数据分布、完整性和自定义指标），无需修改代码。

资源分享

下方这份完整的软件测试视频学习教程已经上传CSDN官方认证的二维码，朋友们如果需要可以自行免费领取 【保证100%免费】

数据测试 xff0c amp xff

有关数据质量测试：测试数据有效性和准确性的方法的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2
我正在尝试设置一个puppet节点，但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter，它工作正常，但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件，它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
Ruby 方法() 方法 - 2
我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索，但这不是我需要的。我也看过ruby-doc.org，但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗？更新我用methods()方法做了实验，得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
ruby - Highline 询问方法不会使用同一行 - 2
设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline，但已经有几个月没有使用它了。现在，在Ruby1.9.2上全新安装时，它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗？最佳答案