作业队

java - Hadoop:如何防止失败的任务导致整个作业失败？

我正在运行一个包含1000个任务的hadoop作业。我需要这份工作来尝试运行每项任务，但许多任务不会完成，而是会抛出异常。我无法更改此行为，但我仍然需要从未失败的任务中获取的数据。如何确保Hadoop在遇到大量失败任务的情况下完成所有1000个任务？最佳答案在您的情况下，您可以设置在不触发作业失败的情况下允许失败的最大任务百分比。Map任务和reduce任务独立控制，使用mapred.max.map.failures.percentmapred.max.reduce.failures.percent属性。因此，如果您想要70%的

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表，并行化列表对于每个文件夹，读取其下的文件-这些是gzip文件对于每个文件，提取内容-这些是行，每行代表一个事件，字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型，有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对，使用表示某种输出结构(例如:事件类型/日期/事件)的键，然后将其写入FS。对请求和用户事件做同样的事情(对于推荐，无法根据用户

hadoop Spark String ObjectNode gt bigdata apache-spark google-hadoop

hadoop - Sqoop 作业依赖项

我可以配置两个sqoop命令使它们相互依赖吗？就像第一个sqoop作业成功一样，第二个被触发。如果第一个失败，第二个不应该运行最佳答案您可以为此使用oozie。创建一个oozie工作流。仅当第一个Action成功时才执行第二个Action。关于hadoop-Sqoop作业依赖项，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/31948355/

hadoop Sqoop section stackoverflow questions

hadoop - 作业无法从一个 ORC 文件读取并将一个子集写入另一个文件

在HDP2.3forWindows中的ApachePig交互式shell中工作，我在/path/to/file中有一个现有的ORC文件。如果我加载然后保存使用:a=LOAD'/path/to/file'USINGOrcStorage('');STOREaINTO'/path/to/second_file'USINGOrcStorage('');然后一切正常。但是，如果我尝试:a=LOAD'/path/to/file'USINGOrcStorage('');b=LIMITa10;STOREbINTO'/path/to/third_file'USINGOrcStorage('');然后我在

并将 hadoop MRAppMaster java apache apache-pig hortonworks-data-platform

java - 从 servlet 调用映射作业时出错

我是一个Hadoop爱好者，还在学习阶段，出于好奇尝试了一些东西，想做一个servlet调用hadoopjob。我尝试了两种方法，但都失败了。等等，首先有人能告诉我这是否可行吗？如果是这样，请提供一些实时示例(不要告诉我Hue)或者简单地说我疯了，在浪费时间。好吧，如果你正在读这篇文章，那么我没疯。现在请看看我的代码并告诉我我做错了什么!!!packagecom.testingservlets;importjava.io.IOException;importjava.io.PrintWriter;importjavax.servlet.ServletException;importja

时出 servlet 34 hadoop li java servlets mapreduce

python - 仅映射 spark 中的作业(与 hadoop 流相比)

我有一个函数process_line可以将输入格式映射到输出格式有些行已损坏，需要忽略。我成功地将此代码作为python流作业运行:forinput_lineinsys.stdin:try:output_line=process_line(input_line.strip())print(output_line)except:sys.stderr.write('Errorwithline:{l}\n'.format(l=input_line))continue如何在pyspark中运行等效代码？这是我尝试过的:input=sc.textFile(input_dir,1)output=l

python hadoop section line output apache-spark pyspark hadoop-streaming

hadoop - 为什么一个 pig/Hive 作业需要多个 MapReduce 作业？

我正在使用Pig来运行我的hadoop作业。当我运行pig脚本然后导航到YARN资源管理器UI时，我可以看到为同一个Pig作业创建了多个MapReduce作业？我相信Hive作业也是如此。谁能告诉我这背后的原因？在什么基础上将一项Pig作业拆分为多个MapReduce作业？其中之一恰好是TempletonControllerJob。谢谢最佳答案 TempletonController作业就像一个父作业，它将调用另一个子map-reduce作业。基本就是控制执行。在执行之前，Pig基本上会制定一个执行计划-它会扫描pig脚本中的所有

MapReduce hadoop section 作业 hive apache-pig

hadoop - 为什么每次启动hadoop作业都需要密码

当我想开始工作时我正在使用hadoop，它总是需要我为16个节点中的3个节点提供连接密码，其中13个工作正常thisistheoutputitstopsuntiliaddthepassword我尝试将它们复制到主节点，但问题仍然存在于16个中的3个从节点？？？!!!!ssh-copy-id-i$HOME/.ssh/id_rsa.pubhduser@slavei注意:“slavei”中的i表示从站编号。最佳答案您需要在提示输入密码的节点上运行此命令chmod700~/.ssh、chmod600~/.ssh/id_rsa和chmod

hadoop 为什么 section code ssh

performance - 在 Hadoop 中提高 MapReduce 作业性能的技巧

我有100个映射器和1个reducer在工作中运行。如何提高工作绩效？据我了解:combiner的使用可以在很大程度上提高性能。但是我们还需要配置什么来提高作业性能？最佳答案由于此问题中的数据有限(输入文件大小、HDFSblock大小、平均map处理时间、集群中的Mapper槽数和Reduce槽数等)，我们无法提供提示。但是有一些通用准则可以提高性能。如果每项任务花费的时间少于30-40秒，则reducetask数量如果作业的输入超过1TB，请考虑将输入数据集的block大小增加到256M甚至512M，这样任务的数量就会变少.只

performance MapReduce section li 射器 hadoop hadoop2

hadoop - 如何过滤所有失败的 Hadoop 作业？

我试图找到一个命令，我可以用它来列出所有失败的作业。“hadoopjob-list”列出所有作业。有没有办法按状态过滤列表？最佳答案在Hadoop中，无法通过单个命令获取失败作业的完整列表。hadoopjob-list仅列出尚未运行的作业。获取作业状态和报告的唯一方法是使用以下命令bin/hadoopjob-history这将抛出完整的详细信息，包括失败状态以及失败的任务。JobName:mapsidejjoinJobConf:hdfs://localhost:50000/tmp/hadoop-thanga/mapred/sta

有失 hadoop section 2016 Jan

148 149 150151152 153 154