草庐IT

作业车

全部标签

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明,它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是,它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在HADOOP中休假的最佳实践是什么。 最佳答案 可以引用项目haloop它解决了迭代映射减少。然后,如果文件很大,那么继续使用haloop,否则你可能会合并小文件以获得更好的性能。 关于hadoop-如何在HADOOP中并行运行多个迭代作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 我可以将本地文件的内容传递给 Hadoop Pipes 作业吗

我需要使用存储在本地文本文件中的信息来初始化映射器中的对象。有什么机制可以做到这一点吗? 最佳答案 您可以将文件上传到HDFS,然后将其添加到分布式缓存,使其可供映射器从工作目录加载。将本地文件上传到HDFS并将其放入分布式缓存由通用-files选项处理hadooppipes-fileslocalfile.txt现在要在映射器中加载文件,只需打开一个同名文件(localfile.txt)(您可以假设该文件位于当前工作目录中)。 关于hadoop-我可以将本地文件的内容传递给HadoopP

Hadoop 作业使用相同的 reducer 输出到相同的文件

我遇到了一个有趣的情况,现在正在寻找如何有意识地去做。在我的本地单节点设置中,我从终端屏幕同时运行了2个作业。我的两个作业都使用相同的reducer,它们仅在map函数(聚合键-分组依据)上有所不同,两个作业的输出都写入了第一个作业的输出(虽然第二个作业确实创建了自己的文件夹,但它是空的).我正在做的是提供跨不同级别的汇总聚合,这种行为对我来说很吸引人,我可以在一个文件中使用来自两个不同级别的聚合输出(也经过完美排序)。我的问题是如何在真实的Hadoop集群中实现相同的目标,我们有多个数据节点,即我以编程方式启动多个作业,所有作业都访问相同的输入文件,以不同方式映射数据,但使用相同的r

Spring Hadoop |作业未出现在作业跟踪器 GUI 上

我正在为我的应用程序使用SpringforApacheHadoop1.0.0.M2。该应用程序使用maven程序集插件打包为二进制分发版,并使用以下命令在集群上运行:java-jarmlprocessor.jarjar中的list文件包括对加载spring上下文文件的Main类的引用。工作执行得很好,我也看到了结果。但是,作业跟踪器GUI上没有此作业的踪迹。虽然日志显示以下警告:WARN[org.apache.hadoop.util.NativeCodeLoader]-Unabletoloadnative-hadooplibraryforyourplatform...usingbuil

hadoop - 在 oozie 工作流作业的情况下直接在 workflow.xml 中访问日期

输入数据路径包含当前日期(INPUT/YYYY/MM/DD/HH/)并且oozie作业只是工作流作业。我尝试了以下方法,但没有用。${jobTracker}${nameNode}${parse_mainClass}${inputDir}/${YEAR}/${MONTH}/${DAY}${parse_Output}通过在coordinator.xml中包含以下内容。我可以在workflow.xml中使用变量“prevDaystart”。${workflowAppUri}prevDaystart${coord:formatTime(coord:dateOffset(coord:nomina

hadoop - 作业跟踪器中的配置单元查询

您好,我们正在最近升级到的CDH4环境中运行配置单元查询。我注意到的一件事是,在早期的CDH3中,我们能够在Jobtracker中跟踪我们的查询。类似于“hostname:50030/jobconf.jsp?jobid=job_12345”的链接会有一个参数“hive.query.string”或“mapred.jdbc.input.bounding.query”,其中包含实际查询MR作业被执行。但在CDH4中,我看不到在哪里可以获得查询。许多查询并行运行以跟踪我们关注的查询。 最佳答案 您仍然可以在工作跟踪器中查看配置单元查询。根

python - 将 Hadoop 流作业的输出发送到 STDOUT

对于流式作业,您必须指定输出目录。如果我想将映射器的结果输出到标准输出而不是HDFS目录怎么办?这可能吗?我想这样做,以便我可以通过管道传输到其他程序。 最佳答案 我在hadoop中编写了许多流式作业。目前尚不清楚您希望您的自定义管道在这里做什么。让我们仔细看看,假设您用python编写了映射器/缩减器(例如,对于shell脚本,从.py更改为.sh):hadoopjarhadoop-*streaming*.jar-filemapper.py-mappermapper.py\-input/user/myuser/input/*-ou

hadoop - HBase MapReduce 作业加载配置(hbase-site.xml),但实际上并没有

我正在编写一个从(a)HBase表读取的MapReduce作业。除了Configuration类之外,几乎所有的东西都按预期工作。所以我这样做了,Configurationconfig=HBaseConfiguration.create();GenericOptionsParserparser=newGenericOptionsParser(config,args);//Thisshouldworkbutisnotworking.config.addResource(newPath(parser.getCommandLine().getOptionValue("conf",DEFAUL

logging - cdh4 hadoop 中作业的详细日志在哪里?

我只是在hdfs中找到jobhistory/home/mps/cdh/users/history/done_intermediate/mps/job_1405497023620_0009-1405505656182-mps-simjoin%2D1.0.jar-1405505683781-0-0-FAILED-default.jhist但是这个工作历史信息远非像这样的详细信息:{"type":"TASK_FAILED","event":{"org.apache.hadoop.mapreduce.jobhistory.TaskFailed":{"taskid":"task_14054970