草庐IT

作业队

全部标签

hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

编辑:查看名称节点日志,我注意到会定期引发异常。可能相关吗?2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.

hadoop mapreduce 作业不运行 reducer

我试图运行WordCount示例的变体,变体是,Mapper输出Text作为键和Text作为值,reducer输出Text作为键和NullWritable作为值。除了map,reducesignatures,我把主要的方法是这样的://startaconfConfigurationconf=newConfiguration();conf.set("str",str);//initializeajobbasedontheconfJobjob=newJob(conf,"wordcount");job.setJarByClass(org.myorg.WordCount.class);//th

hadoop - cloudera hadoop mapreduce 作业 GC 开销限制超出错误

我正在clouderacdh4上运行一个canopy集群作业(使用mahout)。待聚类的内容大约有1m条记录(每条记录大小小于1k)。整个hadoop环境(包括所有节点)运行在一个4G内存的虚拟机中。默认情况下安装cdh4。运行作业时出现以下异常。根据异常情况,作业客户端似乎需要更大的jvm堆大小。但是clouderamanager中jvmheapsize的配置选项还是挺多的。我将“客户端Java堆大小(以字节为单位)”从256MiB更改为512MiB。然而,它并没有改善。关于设置这些堆大小选项的任何提示/技巧?13/07/0317:12:45INFOinput.FileInputF

java - Hadoop:使用作业的输出文件作为第二个作业的输入文件 (FileNotFound)

我正在尝试使用作业的输出文件作为第二个作业的输入文件来运行mapreduce程序。我有这个当前代码:Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf);job.setJarByClass(BookAnalyzer.class);job.setJobName("N-GramExtraction");FileSystemfs=FileSystem.get(conf);FileStatus[]status_list=fs.listStatus(newPath(args[0]));if(status_list!=n

hadoop - yarn 在运行 hive 作业时使用了 100% 的资源

我正在运行一个hivetez作业。工作是将数据从一个文本文件格式的表加载到另一个orc格式的表中。我在用INSERTINTOTABLEORDERREQUEST_ORCPARTITION(DATE)SELECTCOLUMN1,COLUMN2,COLUMN3,DATEFROMORDERREQUEST_TXT;当我通过ambariweb控制台监控作业时,我看到YARN内存使用率为100%。能否请您建议如何保持健康的yarn内存。所有三个数据节点的平均负载;1.top-17:37:24up50days,3:47,4users,loadaverage:15.73,16.43,13.522.top

java - 是否可以限制 MapReduce 作业访问远程数据?

我们有特定的算法要与HDFS集成。该算法要求我们在本地访问数据(工作将专门在Mapper中完成)。但是,我们确实希望在分发文件(提供可靠性和strip化)方面利用HDFS。执行计算后,我们将使用Reducer简单地发回答案,而不是执行任何额外的工作。避免使用网络是一个明确的目标。是否有一个配置设置允许我们限制网络数据访问,以便当MapReduce作业启动时它只会访问它的本地DataNode?更新:添加一些上下文我们试图用字符串匹配来分析这个问题。假设我们的集群有N个节点,一个文件存储了NGB的文本。该文件存储在HDFS中,并均匀分布到节点(每个节点1个部分)。我们能否创建一个MapRe

hadoop - hadoop作业日志中的 "vcore-seconds"是什么意思?

JobCountersLaunchedmaptasks=3Launchedreducetasks=45Data-localmaptasks=1Rack-localmaptasks=2Totaltimespentbyallmapsinoccupiedslots(ms)=29338Totaltimespentbyallreducesinoccupiedslots(ms)=200225Totaltimespentbyallmaptasks(ms)=29338Totaltimespentbyallreducetasks(ms)=200225Totalvcore-secondstakenbyal

shell - 脚本没有完成执行,但 cron 作业再次开始

我正在尝试运行将执行我的shell脚本的cron作业,我的shell脚本包含hive和pig脚本。我将cron作业设置为每2分钟执行一次,但在我的shell脚本完成之前,我的cron作业再次启动是否会影响我的结果,或者一旦脚本完成执行,它就会启动。我在这里有点进退两难。请帮忙。谢谢 最佳答案 我认为有两种方法可以更好地解决这个问题,长路和短路:漫长的道路(可能是最正确的):使用像Luigi这样的东西管理作业依赖性,然后使用Cron运行它(它不会运行多个相同的作业)。Luigi将为您处理所有作业依赖项,您可以确保特定作业只执行一次。设

hadoop - 在 Streamsets 中调度 JDBC 消费者作业

我需要安排JDBC消费者作业在每天早上5点运行,据我所知,当我在早上5点开始作业并在查询间隔中设置24小时时,我可以让作业在凌晨5点运行.但我需要安排第一个实例在早上5点开始,而不是手动启动它(我懒得在早上5点醒来:P)有没有办法实现这个? 最佳答案 (复制myanswerfromAskStreamSets)SDC中没有内置调度程序,但您可以使用cron和StreamSetsCLI启动管道。 关于hadoop-在Streamsets中调度JDBC消费者作业,我们在StackOverflo

java - Hadoop Mapreduce 作业卡在 map 上 100% 减少 51%

所以,我正在某处寻找一个无限循环,我不知道是否还有其他原因会导致这种情况。我正在使用四个集群节点,所以我很确定不会缺少RAM,正如其他同类问题中所建议的那样。我的代码:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop