test_script

hadoop - 在 Talend 中实现 UDF 和 Pig Script 逻辑

我编写了一个UDF，它读取输入文件并将数据分离为字符串和整数或字符串和double。我的UDF运行良好。我还编写了一个Pig脚本以在HDFS上使用上述jar。现在我想将此代码与TalendforBigData集成。我怎样才能做到这一点。UDF中的java代码如下:packagecom.test.udf;importjava.io.IOException;importorg.apache.pig.EvalFunc;importorg.apache.pig.data.Tuple;importorg.apache.pig.data.TupleFactory;publicclassCheckD

java - 通过 Phoenix 连接到 Test Hbase 表

我想知道是否以及如何连接到我使用的HBaseTestTable(org.apache.hadoop.hbase.HBaseTestingUtility;)通过Phoenix。我想成功连接到Hbase，然后插入测试表并从测试表中检索数据。我已经能够创建一个HbaseTable。但无法通过Phoenix连接到它。也无法使用writeToPhoenix函数。我正在分享我写的代码:@BeforeClasspublicstaticvoidinit()throwsException{testingUtility=newHBaseTestingUtility();testingUtility.sta

Phoenix Hbase java at NativeMethodAccessorImpl hadoop apache-zookeeper apache-phoenix

unit-testing - 测试 Spark : how to create a clean environment for each test

在测试我的ApacheSpark应用程序时，我想进行一些集成测试。出于这个原因，我创建了一个本地spark应用程序(启用了配置单元支持)，在其中执行测试。如何在每次测试后清除derbyMetastore，以便下一次测试再次拥有干净的环境。我不想做的是在每次测试后重新启动spark应用程序。是否有任何最佳实践可以实现我想要的？最佳答案我认为为集成测试引入一些应用程序级逻辑打破了集成测试的概念。从我的角度来看，正确的方法是为每个测试重新启动应用程序。无论如何，我相信另一种选择是为每个测试启动/停止SparkContext。它应该清除

unit-testing environment section 测试 strong apache-spark hadoop testing hive

maven - 在 Maven 中， `package:artifact:jar:version` 和包 :artifact:jar:tests:version`? 有什么区别

使用Maven3.0.5我正在尝试从com.holdenkarau获取spark-testing-base以使用Hadoop3.1。霍登卡劳的dependencytree包括Hadoop2.8.3；这就是为什么我认为我收到错误。从我的mvndependency:tree我看到以下几行:[INFO]+-org.apache.hadoop:hadoop-common:jar:3.1.0:provided...[INFO]|+-org.apache.hadoop:hadoop-common:jar:tests:2.8.3:test这些行来自pom.xml文件中的这两行:org.apache.

artifact version code gt lt maven hadoop dependencies maven-3

unit-testing - 在 Windows 上运行 spark 单元测试

我正在尝试在Spark上运行一些转换，它在集群(YARN、linux机器)上运行良好。但是，当我尝试在本地计算机(Windows7)上运行单元测试时，出现错误:java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.atorg.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)atorg.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)ato

unit-testing testing section hadoop strong apache-spark

hadoop - Hadoop2 中的 hadoop-test.jar 在哪里？

我想使用testmapredsort在Hadoop中进行基准排序。我现在不使用TeraSort。hadoop-*test*.jar应该包含testmapredsort类。但是我在Hadoop2中没有看到hadoop-*test*.jar。hadoopjarhadoop/share/hadoop/common/hadoop-common-2.2.0-tests.jartestmapredsort/data/unsorted-data-sortOutput/data/sorted-data 最佳答案在Hadoop1中，testmapr

hadoop hadoop-test code section benchmarking hadoop2

hadoop - 有没有办法在 Pig Script 中创建索引？

我有一个没有ID号(索引)的数据文件。可以使用UDF或pig中的任何内置函数为每个条目创建索引吗？例如:data=load'myfile.txt'usingPigStorge(',')AS(speed:float,location:charrarray);A=foreachdatagenerateindexas(Id:int),speed,location;我在将数据从pig加载到Hbase时遇到问题，因为hbase将速度读取为行键值，并且我的文件中有许多重复数据(速度)。我想将索引设置为行键值并存储在Hbase表中。你对此有什么建议吗？谢谢你。最佳答案

中创 hadoop section location speed indexing hbase apache-pig

shell - Oozie 和 Hue : Permission Denied while running shell script

我在HDFS/user/user中有一个shell脚本sample_shell.sh，如下所示:source/user/user/params_new.cfgecho"HELLOWORLD"echo$layerparams_new.cfg也位于HDFS/user/user目录中，其内容为:layer="S"我是Oozie的新手，正在尝试在Hue中设置一个Oozie工作流程，它将执行sample_shell.sh脚本。属性如下:${jobTracker}${nameNode}/user/user/sample_shell.sh/user/user/sample_shell.sh#samp

shell Permission user code hadoop oozie hue

hadoop - 无法在伪分布式模式下运行 Pig Script

我正在尝试编写一个pig脚本。我已经成功地在本地模式下工作，但是当我在Psudo分布式模式下启动pig时出现错误。这是脚本:register'myfolder/target/myfunc-with-dependencies.jar';SETmapred.cache.files/tmp/scripts#scripts,/tmp/my_rules#my_rules;SETmapred.create.symlinkyes;%defaultINPUT'test.seq'%defaultOUTPUT'final.out'%defaultTIMEOUT_MS'180000'%defaultUSE_

hadoop Script apache pig java apache-pig hdfs

unit-testing - 用于单元测试的 MR-Unit 与 JUnit

谁能解释一下使用MR-Unit进行单元测试MR作业与使用JUnit和Mockito相比有什么好处？具体来说，有哪些事情是我可以用JUnit做而不能做的，或者更难做？我的想法是将所有逻辑从映射器/缩减器转移到帮助器类，并且只验证是否在模拟上调用了适当的方法。为什么要使用MR-Unit？最佳答案我认为mrunit为您提供的最重要的东西是用于测试mapreduce作业的DSL。单元测试应该是关于可读性和讲述故事的，因此如果您有一个适合该领域的API，那么编写测试和稍后理解它们会变得更容易。另一件可能同样重要的事情是它提供了比JUnit

unit-testing testing section JUnit mrunit hadoop

202 203 204205206 207 208