大数据测试

MetaTrade 2023-07-15 原文

什么是大数据测试

大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。

数据测试：

主要关注数据的完整性、准确性和一致性等。

大数据系统测试和大数据应用产品测试：

这里的大数据系统一般是指使用hadoop生态组件搭建的或者自主研发的大数据系统。自主研发的大数据系统主要包括数据的存储、计算和分析等应用。

大数据系统测试主要包括功能、基准、安全和可靠性测试。功能测试主要是对数据的采集和传输、数据的存储和管理、数据计算、数据的查询和分析，以及数据的可视化等功能的测试。基准测试主要用于对比和评估大数据框架组件的性能指标等。

大数据应用产品，典型的有BI报表、数据分析平台等。构建大数据应用产品通常依赖数据仓库和ETL过程。

大数据测试类型

按照测试类型划分：功能测试、性能测试、其他非功能性测试（兼容、安全等）

数据的生命周期划分：数据采集测试、数据处理测试、数据计算测试和应用展示阶段测试

功能测试

功能测试主要覆盖数据质量、数据维度、数据处理和数据展示等多个方面。功能测试常用的测试方法：数据的完整性、一致性、准确性、及时性测试、数据约束检查、数据存储检查、sql文件检查、数据处理逻辑验证、shell脚本测试和调度任务测试等。

在数据质量方面，主要包括4种测试方法：数据的完整性、一致性、准确性、及时性测试。

数据的完整性测试

　　数据的一致性测试

　　数据的准确性测试

　　数据的及时性测试

数据的及时性是指数据从产生到可以查看的时间间隔（也称数据的延长时长）在可接受范围。及时性对大数据离线项目的影响不大，但对大数据实施项目有很大影响

数据约束检查

数据约束检查主要检查：数据类型、数据长度、索引和主键是否符合要求。数据类型比较丰富，测试过程中需要覆盖所有的数据类型，对于不支持的数据类型也要有异常处理。检查目标表中的约束关系是否满足设计期望。

数据约束检查

数据存储检查主要检查数据的存储是否合理、正确

1）评估是否需要以压缩文件形式存储 2）hive表类型选择是否合理（内部表、外部表、分区表和分桶表）3）代码中读取和写入的文件及目录是否正确

SQL文件检查

1）开发规范检查

eg:建议先进行过滤操作，去掉无用数据后在进行join操作；建议将小表放在join的左边，join左边的边会首先加载进内存，这样可以有效降低内存溢出错误发生的概率；尽量少使用distinct操作，因为distinct操作比较耗资源等等

2）sql语法检查

主要检查sql是否存在语法问题，即检查sql连接方式、函数、聚合和关键字的使用是否正确

数据处理逻辑验证

1）验证过程是否符合业务逻辑，运算符和函数的使用是否正确

2）对异常值，“脏”数据、极值、特殊数据（0值、负值）的处理是否符合预期

3）字段类型愚书记数据是否一致，主键构成是否合理

4）是否按照去重规则进行去重处理

调度任务测试

1）任务本身是否支持重跑，任务失败是否有日志，重跑数据是否正常有重复数据，任务失败是否可以监控告警等

2）依赖的父任务是否更配置合理

3）任务依赖层次是否合理，任务执行先后、并行是否合理，是否会冲突。

4）任务是否在规定的时间内完成

大数大数据 xff xff0c hadoop hive spark kafka big data

有关大数据测试的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
ruby - Ruby 的 Hash 在比较键时使用哪种相等性测试？ - 2
我有一个围绕一些对象的包装类，我想将这些对象用作散列中的键。包装对象和解包装对象应映射到相同的键。一个简单的例子是这样的:classAattr_reader:xdefinitialize(inner)@inner=innerenddefx;@inner.x;enddef==(other)@inner.x==other.xendenda=A.new(o)#oisjustanyobjectthatallowso.xb=A.new(o)h={a=>5}ph[a]#5ph[b]#nil,shouldbe5ph[o]#nil,shouldbe5我试过==、===、eq?并散列所有无济于事。
ruby - RSpec - 使用测试替身作为 block 参数 - 2
我有一些Ruby代码，如下所示:Something.createdo|x|x.foo=barend我想编写一个测试，它使用double代替block参数x，这样我就可以调用:x_double.should_receive(:foo).with("whatever").这可能吗？最佳答案 specify'something'dox=doublex.should_receive(:foo=).with("whatever")Something.should_receive(:create).and_yield(x)#callthere
ruby - Sinatra:运行 rspec 测试时记录噪音 - 2
Sinatra新手；我正在运行一些rspec测试，但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音？我仔细检查了环境是否设置为:test，这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/
ruby-on-rails - 迷你测试错误 : "NameError: uninitialized constant" - 2
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”，并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符，电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时，所有测试都通过了，但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test
ruby - 即使失败也继续进行多主机测试 - 2
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时，测试会在当前主机停止。即使测试失败，我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
ruby-on-rails - 如何使辅助方法在 Rails 集成测试中可用？ - 2
我在app/helpers/sessions_helper.rb中有一个帮助程序文件，其中包含一个方法my_preference，它返回当前登录用户的首选项。我想在集成测试中访问该方法。例如，这样我就可以在测试中使用getuser_path(my_preference)。在其他帖子中，我读到这可以通过在测试文件中包含requiresessions_helper来实现，但我仍然收到错误NameError:undefinedlocalvariableormethod'my_preference'.我做错了什么？require'test_helper'require'sessions_hel
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳

大数据测试

什么是大数据测试

数据测试：

大数据系统测试和大数据应用产品测试：

大数据测试类型

功能测试

数据的完整性测试

数据的一致性测试

数据的准确性测试

数据的及时性测试

数据约束检查

数据约束检查

SQL文件检查

数据处理逻辑验证

调度任务测试

有关大数据测试的更多相关文章

随机推荐

　　数据的一致性测试

　　数据的准确性测试

　　数据的及时性测试