草庐IT

作业队

全部标签

java - Hadoop:如何防止失败的任务导致整个作业失败?

我正在运行一个包含1000个任务的hadoop作业。我需要这份工作来尝试运行每项任务,但许多任务不会完成,而是会抛出异常。我无法更改此行为,但我仍然需要从未失败的任务中获取的数据。如何确保Hadoop在遇到大量失败任务的情况下完成所有1000个任务? 最佳答案 在您的情况下,您可以设置在不触发作业失败的情况下允许失败的最大任务百分比。Map任务和reduce任务独立控制,使用mapred.max.map.failures.percentmapred.max.reduce.failures.percent属性。因此,如果您想要70%的

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表,并行化列表对于每个文件夹,读取其下的文件-这些是gzip文件对于每个文件,提取内容-这些是行,每行代表一个事件,字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型,有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对,使用表示某种输出结构(例如:事件类型/日期/事件)的键,然后将其写入FS。对请求和用户事件做同样的事情(对于推荐,无法根据用户

hadoop - Sqoop 作业依赖项

我可以配置两个sqoop命令使它们相互依赖吗?就像第一个sqoop作业成功一样,第二个被触发。如果第一个失败,第二个不应该运行 最佳答案 您可以为此使用oozie。创建一个oozie工作流。仅当第一个Action成功时才​​执行第二个Action。 关于hadoop-Sqoop作业依赖项,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/31948355/

hadoop - 作业无法从一个 ORC 文件读取并将一个子集写入另一个文件

在HDP2.3forWindows中的ApachePig交互式shell中工作,我在/path/to/file中有一个现有的ORC文件。如果我加载然后保存使用:a=LOAD'/path/to/file'USINGOrcStorage('');STOREaINTO'/path/to/second_file'USINGOrcStorage('');然后一切正常。但是,如果我尝试:a=LOAD'/path/to/file'USINGOrcStorage('');b=LIMITa10;STOREbINTO'/path/to/third_file'USINGOrcStorage('');然后我在

java - 从 servlet 调用映射作业时出错

我是一个Hadoop爱好者,还在学习阶段,出于好奇尝试了一些东西,想做一个servlet调用hadoopjob。我尝试了两种方法,但都失败了。等等,首先有人能告诉我这是否可行吗?如果是这样,请提供一些实时示例(不要告诉我Hue)或者简单地说我疯了,在浪费时间。好吧,如果你正在读这篇文章,那么我没疯。现在请看看我的代码并告诉我我做错了什么!!!packagecom.testingservlets;importjava.io.IOException;importjava.io.PrintWriter;importjavax.servlet.ServletException;importja

python - 仅映射 spark 中的作业(与 hadoop 流相比)

我有一个函数process_line可以将输入格式映射到输出格式有些行已损坏,需要忽略。我成功地将此代码作为python流作业运行:forinput_lineinsys.stdin:try:output_line=process_line(input_line.strip())print(output_line)except:sys.stderr.write('Errorwithline:{l}\n'.format(l=input_line))continue如何在pyspark中运行等效代码?这是我尝试过的:input=sc.textFile(input_dir,1)output=l

hadoop - 为什么一个 pig/Hive 作业需要多个 MapReduce 作业?

我正在使用Pig来运行我的hadoop作业。当我运行pig脚本然后导航到YARN资源管理器UI时,我可以看到为同一个Pig作业创建了多个MapReduce作业?我相信Hive作业也是如此。谁能告诉我这背后的原因?在什么基础上将一项Pig作业拆分为多个MapReduce作业?其中之一恰好是TempletonControllerJob。谢谢 最佳答案 TempletonController作业就像一个父作业,它将调用另一个子map-reduce作业。基本就是控制执行。在执行之前,Pig基本上会制定一个执行计划-它会扫描pig脚本中的所有

hadoop - 为什么每次启动hadoop作业都需要密码

当我想开始工作时我正在使用hadoop,它总是需要我为16个节点中的3个节点提供连接密码,其中13个工作正常thisistheoutputitstopsuntiliaddthepassword我尝试将它们复制到主节点,但问题仍然存在于16个中的3个从节点???!!!!ssh-copy-id-i$HOME/.ssh/id_rsa.pubhduser@slavei注意:“slavei”中的i表示从站编号。 最佳答案 您需要在提示输入密码的节点上运行此命令chmod700~/.ssh、chmod600~/.ssh/id_rsa和chmod

performance - 在 Hadoop 中提高 MapReduce 作业性能的技巧

我有100个映射器和1个reducer在工作中运行。如何提高工作绩效?据我了解:combiner的使用可以在很大程度上提高性能。但是我们还需要配置什么来提高作业性能? 最佳答案 由于此问题中的数据有限(输入文件大小、HDFSblock大小、平均map处理时间、集群中的Mapper槽数和Reduce槽数等),我们无法提供提示。但是有一些通用准则可以提高性能。如果每项任务花费的时间少于30-40秒,则reducetask数量如果作业的输入超过1TB,请考虑将输入数据集的block大小增加到256M甚至512M,这样任务的数量就会变少.只

hadoop - 如何过滤所有失败的 Hadoop 作业?

我试图找到一个命令,我可以用它来列出所有失败的作业。“hadoopjob-list”列出所有作业。有没有办法按状态过滤列表? 最佳答案 在Hadoop中,无法通过单个命令获取失败作业的完整列表。hadoopjob-list仅列出尚未运行的作业。获取作业状态和报告的唯一方法是使用以下命令bin/hadoopjob-history这将抛出完整的详细信息,包括失败状态以及失败的任务。JobName:mapsidejjoinJobConf:hdfs://localhost:50000/tmp/hadoop-thanga/mapred/sta