草庐IT

test_tasks

全部标签

Hadoop MapReduce : How to ensure multiple tasks are executed in parallel among all nodes

我在HDFS中有一个任务列表文件,任务列表受CPU限制,将在带有HadoopMapReduce(仅限Map)的小型5节点集群中执行。例如,任务列表文件包含10行,每行对应一个任务命令。每个任务的执行都需要很长时间,所以在所有5个节点上并行执行列出的10个任务肯定更高效。但是由于任务列表文件很小,这个数据block很可能只位于一个节点上,所以根据数据局部性原则,只有该节点会执行所有这10个任务。有什么解决方案可以确保所有10个任务在所有5个节点上并行执行? 最佳答案 默认情况下,mapreduce将在每次拆分时运行一个映射器。拆分是一

java - 通过 Phoenix 连接到 Test Hbase 表

我想知道是否以及如何连接到我使用的HBaseTestTable(org.apache.hadoop.hbase.HBaseTestingUtility;)通过Phoenix。我想成功连接到Hbase,然后插入测试表并从测试表中检索数据。我已经能够创建一个HbaseTable。但无法通过Phoenix连接到它。也无法使用writeToPhoenix函数。我正在分享我写的代码:@BeforeClasspublicstaticvoidinit()throwsException{testingUtility=newHBaseTestingUtility();testingUtility.sta

unit-testing - 测试 Spark : how to create a clean environment for each test

在测试我的ApacheSpark应用程序时,我想进行一些集成测试。出于这个原因,我创建了一个本地spark应用程序(启用了配置单元支持),在其中执行测试。如何在每次测试后清除derbyMetastore,以便下一次测试再次拥有干净的环境。我不想做的是在每次测试后重新启动spark应用程序。是否有任何最佳实践可以实现我想要的? 最佳答案 我认为为集成测试引入一些应用程序级逻辑打破了集成测试的概念。从我的角度来看,正确的方法是为每个测试重新启动应用程序。无论如何,我相信另一种选择是为每个测试启动/停止SparkContext。它应该清除

maven - 在 Maven 中, `package:artifact:jar:version` 和包 :artifact:jar:tests:version`? 有什么区别

使用Maven3.0.5我正在尝试从com.holdenkarau获取spark-testing-base以使用Hadoop3.1。霍登卡劳的dependencytree包括Hadoop2.8.3;这就是为什么我认为我收到错误。从我的mvndependency:tree我看到以下几行:[INFO]+-org.apache.hadoop:hadoop-common:jar:3.1.0:provided...[INFO]|+-org.apache.hadoop:hadoop-common:jar:tests:2.8.3:test这些行来自pom.xml文件中的这两行:org.apache.

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中,我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务?我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是,对于完全相同的输入,我偶尔会得到略有不同的数字,或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同? 最佳答案 这很可能是推测性执行的启动。当Hadoop有可用资源时,它可能会选择同时运行同一任务的两次尝试。启

java - 即使在命令行上告诉为 -D mapred.reduce.tasks=0 后,hadoop reduce 任务仍在运行

我有一个MapReduce编程为publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableuno=newIntWritable(1);privateIntWritablecitationCount=newIntWritable();publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{citationCount.set(Integer.par

unit-testing - 在 Windows 上运行 spark 单元测试

我正在尝试在Spark上运行一些转换,它在集群(YARN、linux机器)上运行良好。但是,当我尝试在本地计算机(Windows7)上运行单元测试时,出现错误:java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.atorg.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)atorg.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)ato

hadoop - Hadoop2 中的 hadoop-test.jar 在哪里?

我想使用testmapredsort在Hadoop中进行基准排序。我现在不使用TeraSort。hadoop-*test*.jar应该包含testmapredsort类。但是我在Hadoop2中没有看到hadoop-*test*.jar。hadoopjarhadoop/share/hadoop/common/hadoop-common-2.2.0-tests.jartestmapredsort/data/unsorted-data-sortOutput/data/sorted-data 最佳答案 在Hadoop1中,testmapr

xml - 改变 mapred.reduce.tasks

我应该在哪个文件中设置reducer的数量和设置mapred.reduce.tasks参数?我的conf文件夹中只有以下文件,没有一个有这个参数:ubuntu@group-3-vm1:~/conf$lscapacity-scheduler.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlcore-site.xmlhive-site.xmltez-site.xml 最佳答案 所有Hadoop配置属性都分为以下几组。Hadoop-1.X.X:核心-core-site.xmlhdfs-hdfs-si

hadoop - Mapper 或 Reducer Task 中未处理的异常会使任务失败?

我想知道mapper任务(或reducer任务)中未处理的异常是否会使任务失败,或者仅忽略时间的特定输入对?我想是前者,但不太确定。 最佳答案 这取决于错误。无论哪种方式,我总是强调用try-catchblock包装map和减少逻辑。出现错误时,我递增一个计数器,其名称派生自异常类名。这不仅可以保护hadoop的其余部分免受逻辑错误的影响,还可以让您仅通过查看日志就知道出了多少问题。 关于hadoop-Mapper或ReducerTask中未处理的异常会使任务失败?,我们在StackOv