job_local_草庐IT

maven - 使用 Local Runner 在独立模式下运行 Hadoop 2.4.0 作业的单元测试

在使用以前版本的Hadoop时，我通常会为整个作业(映射器和缩减器)构建junit测试，并通过调用maven或直接从IDE本身运行测试。系统上的任何地方都没有安装hadoop。我使用以下属性来确保使用本地进程内运行器:config.set("mapred.job.tracker","local");config.set("fs.default.name","file:///test-fs");这些测试运行成功。我升级到较新版本的Hadoop(2.4.0)以利用新的API。我希望能够像以前一样用我的单元做同样的事情。我现在使用的属性是:config.set("fs.default.nam

java - 如何在hadoop Job类中设置Map任务的数量

这个问题在这里已经有了答案:Settingthenumberofmaptasksandreducetasks(15个答案)关闭6年前。我在通过Java将映射器的数量设置为一个时遇到问题。我正在使用作业和配置类。我知道我们可以使用旧的已弃用API通过mapred.map.tasks设置reducer的数量。有什么方法可以指定使用作业和配置类。我尝试使用FileInputFormat.setMinInputSplitSize(FullFilesize)增加输入文件拆分大小但是，我想知道我们是否有任何与新API中的mapred.map.tasks等效的东西，或者您如何通过其他方式指定

中设何在 section tasks code java hadoop mapreduce mapper

hadoop - sqoop import Job期间如何保持故障恢复

我们计划创建Oozie作业，该作业运行Sqoop命令以每小时为基础将数据从SQL服务器导入HDFS。但我们面临着挑战，如果该作业在此期间失败，如何发出警报，以及sqoop将如何检查哪些数据导入成功，哪些数据仍在等待中。sqoop导入时是否有维护事务和重试机制的流程。我们也会对他们的失败发出警报。最佳答案您可以将Oozie的工作流程配置为在失败时发送电子邮件。您可以通过将错误标记从任何操作重定向到发送电子邮件操作来实现此目的。电子邮件配置的示例如下。${emailToAddress}Failedtoimporttable.Thef

hadoop import oozie email section sqoop

hadoop - Oozie Job(Cloudera VM)在抛出错误时执行 shell 脚本——错误=2，没有这样的文件或目录

我在尝试执行shell脚本时出现以下错误。如果我在这里做错了，请告诉我。我已将所有文件复制到Hdfs中。Oozie文件夹包含脚本文件夹，我在该文件夹中有sample.sh。Cannotrunprogram"sample.sh"(indirectory"/var/lib/hadoop-yarn/cache/yarn/nm-local-dir/usercache/cloudera/appcache/application_1468541187565_0011/container_1468541187565_0011_01_000002"):error=2,Nosuchfileordirec

mdash Cloudera gt lt 34 hadoop oozie cloudera-cdh

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码，如果它花费的时间太长，我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.

running Apache section val scala hadoop apache-spark hadoop-yarn

hadoop - Druid 批量索引 inputSpec 类型粒度，错误为 "no input paths specified in job"

我正在按照此处编写的说明进行操作:http://druid.io/docs/0.9.2/ingestion/batch-ingestion.html(滚动到“InputSpecspecification”，寻找“granularity”)。我的索引任务JSON中有:"inputSpec":{"type":"granularity","dataGranularity":"DAY","inputPath":"hdfs://hadoop:9000/druid/events/interview","filePattern":".*","pathFormat":"'y'=yyyy/'m'=MM/

amp inputSpec 34 hadoop section indexing batch-processing druid granularity

尽管设置了 mapred.job.tracker 值，Hadoop 1.2.1 仍以本地模式运行

我正在尝试将giraph作业提交到hadoop1.2.1集群。该集群有一个名称节点主节点、一个映射归约主节点和四个从节点。作业失败，出现以下异常:java.util.concurrent.ExecutionException:java.lang.IllegalStateException:checkLocalJobRunnerConfiguration:使用LocalJobRunner时，必须只有一个worker，因为一次只有1个任务!但是，这是我的mapred-site.xml文件:mapred.job.trackerjob.tracker.private.ip:9001mapred

尽管 tracker gt lt property hadoop mapreduce olap gremlin giraph

hadoop - 从 spark master UI 清除 Spark Job 历史记录

我正在处理spark，我想通过清除所有以前失败/完成的作业来清除我的sparkmasterUI。我不知道该怎么做？我试过从hdfs中删除日志，但作业条目仍然显示在UI上。最佳答案您需要重新启动masterspark进程。来自spark的sbin目录，运行./stop-master.sh和./start-master.sh它应该修复。关于hadoop-从sparkmasterUI清除SparkJob历史记录，我们在StackOverflow上找到一个类似的问题：

hadoop master section code apache-spark hadoop-yarn spark-hive

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时，我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下，您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反，它应该是:. 关于hadoop

配置单 amp section code Hadoop hive