作业队

hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

编辑:查看名称节点日志，我注意到会定期引发异常。可能相关吗？2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.

自定 Streaming hadoop java apache amazon-web-services hadoop-streaming amazon-emr emr

hadoop mapreduce 作业不运行 reducer

我试图运行WordCount示例的变体，变体是，Mapper输出Text作为键和Text作为值，reducer输出Text作为键和NullWritable作为值。除了map，reducesignatures，我把主要的方法是这样的://startaconfConfigurationconf=newConfiguration();conf.set("str",str);//initializeajobbasedontheconfJobjob=newJob(conf,"wordcount");job.setJarByClass(org.myorg.WordCount.class);//th

mapreduce reducer job section Text hadoop reduce

hadoop - cloudera hadoop mapreduce 作业 GC 开销限制超出错误

我正在clouderacdh4上运行一个canopy集群作业(使用mahout)。待聚类的内容大约有1m条记录(每条记录大小小于1k)。整个hadoop环境(包括所有节点)运行在一个4G内存的虚拟机中。默认情况下安装cdh4。运行作业时出现以下异常。根据异常情况，作业客户端似乎需要更大的jvm堆大小。但是clouderamanager中jvmheapsize的配置选项还是挺多的。我将“客户端Java堆大小(以字节为单位)”从256MiB更改为512MiB。然而，它并没有改善。关于设置这些堆大小选项的任何提示/技巧？13/07/0317:12:45INFOinput.FileInputF

hadoop mapreduce JobClient mapred reduce heap-memory cloudera

java - Hadoop:使用作业的输出文件作为第二个作业的输入文件 (FileNotFound)

我正在尝试使用作业的输出文件作为第二个作业的输入文件来运行mapreduce程序。我有这个当前代码:Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf);job.setJarByClass(BookAnalyzer.class);job.setJobName("N-GramExtraction");FileSystemfs=FileSystem.get(conf);FileStatus[]status_list=fs.listStatus(newPath(args[0]));if(status_list!=n

FileNotFound Hadoop job class job2 java file mapreduce

hadoop - yarn 在运行 hive 作业时使用了 100% 的资源

我正在运行一个hivetez作业。工作是将数据从一个文本文件格式的表加载到另一个orc格式的表中。我在用INSERTINTOTABLEORDERREQUEST_ORCPARTITION(DATE)SELECTCOLUMN1,COLUMN2,COLUMN3,DATEFROMORDERREQUEST_TXT;当我通过ambariweb控制台监控作业时，我看到YARN内存使用率为100%。能否请您建议如何保持健康的yarn内存。所有三个数据节点的平均负载；1.top-17:37:24up50days,3:47,4users,loadaverage:15.73,16.43,13.522.top

hadoop 100%yarn code section memory hive hadoop-yarn ambari

java - 是否可以限制 MapReduce 作业访问远程数据？

我们有特定的算法要与HDFS集成。该算法要求我们在本地访问数据(工作将专门在Mapper中完成)。但是，我们确实希望在分发文件(提供可靠性和strip化)方面利用HDFS。执行计算后，我们将使用Reducer简单地发回答案，而不是执行任何额外的工作。避免使用网络是一个明确的目标。是否有一个配置设置允许我们限制网络数据访问，以便当MapReduce作业启动时它只会访问它的本地DataNode？更新:添加一些上下文我们试图用字符串匹配来分析这个问题。假设我们的集群有N个节点，一个文件存储了NGB的文本。该文件存储在HDFS中，并均匀分布到节点(每个节点1个部分)。我们能否创建一个MapRe

MapReduce java section code hadoop hdfs distributed-computing

hadoop - hadoop作业日志中的 "vcore-seconds"是什么意思？

JobCountersLaunchedmaptasks=3Launchedreducetasks=45Data-localmaptasks=1Rack-localmaptasks=2Totaltimespentbyallmapsinoccupiedslots(ms)=29338Totaltimespentbyallreducesinoccupiedslots(ms)=200225Totaltimespentbyallmaptasks(ms)=29338Totaltimespentbyallreducetasks(ms)=200225Totalvcore-secondstakenbyal

hadoop vcore-seconds tasks section seconds hadoop2

shell - 脚本没有完成执行，但 cron 作业再次开始

我正在尝试运行将执行我的shell脚本的cron作业，我的shell脚本包含hive和pig脚本。我将cron作业设置为每2分钟执行一次，但在我的shell脚本完成之前，我的cron作业再次启动是否会影响我的结果，或者一旦脚本完成执行，它就会启动。我在这里有点进退两难。请帮忙。谢谢最佳答案我认为有两种方法可以更好地解决这个问题，长路和短路:漫长的道路(可能是最正确的):使用像Luigi这样的东西管理作业依赖性，然后使用Cron运行它(它不会运行多个相同的作业)。Luigi将为您处理所有作业依赖项，您可以确保特定作业只执行一次。设

shell cron section hadoop hive apache-pig

hadoop - 在 Streamsets 中调度 JDBC 消费者作业

我需要安排JDBC消费者作业在每天早上5点运行，据我所知，当我在早上5点开始作业并在查询间隔中设置24小时时，我可以让作业在凌晨5点运行.但我需要安排第一个实例在早上5点开始，而不是手动启动它(我懒得在早上5点醒来:P)有没有办法实现这个？最佳答案 (复制myanswerfromAskStreamSets)SDC中没有内置调度程序，但您可以使用cron和StreamSetsCLI启动管道。关于hadoop-在Streamsets中调度JDBC消费者作业，我们在StackOverflo

Streamsets hadoop section noreferrer https cloudera

java - Hadoop Mapreduce 作业卡在 map 上 100% 减少 51%

所以，我正在某处寻找一个无限循环，我不知道是否还有其他原因会导致这种情况。我正在使用四个集群节点，所以我很确定不会缺少RAM，正如其他同类问题中所建议的那样。我的代码:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop

Mapreduce Hadoop Text code import java

177 178 179180181 182 183