草庐IT

testing - 如何测试Hadoop mapreduce

如何在hadoopmapreduce应用程序准备好投入生产之前对其进行测试。我现在能想到的测试视角是:单元测试这是为了确保映射器和还原器中的方法正常工作。看来我们已经有了mrunit,但我想看看我们是否还有其他选择。数据准确性这对我来说是最重要的,因为产生准确和正确的输出是mapreduce应用程序的主要职责。这里的问题是如何生成测试数据集和如何验证输出数据,以及正确的测试数据量是多少?性能我们应该如何对mapreduce应用程序的性能进行基准测试?我们能利用什么工具?我们还需要考虑其他的测试吗? 最佳答案 jumbune是您的工具

hadoop - 如何验证存储在Hadoop中的数据?

有什么框架或库可以用来验证元组吗?这些验证应根据配置的验证规则测试类型、长度、可空性等。根据验证结果,这将生成验证文件索引失败的元组,并提供失败原因的详细信息。 最佳答案 jumbune的数据验证模块将允许您这样做。它可以检查hdfs数据是否存在正则表达式、空值和数据类型冲突。只需在用户机器上部署jumbune,在namenode上运行一个小jar,启动jumbune并在hdfsvalidation选项卡上提供详细信息,详细信息,如元组分隔符、字段分隔符、要执行的验证的数目和类型。结果将包含冲突总数、文件名和行号以及冲突的确切细节。