草庐IT

作业队

全部标签

java - 从 Java 应用程序在 hadoop 2.2 (Yarn) 上启动 mapreduce 作业

我正在尝试从Java应用程序调用mapreduce作业。在以前的hadoop版本(1.x)中,我创建了一个Configuration对象和一个Job对象,在Configuration中设置mapred.job.tracker和fs.default.name并运行工作。现在,在hadoop2.x中,jobtracker不再存在,也不存在任何关于如何以编程方式运行MR1作业的文档。有什么想法吗?我正在寻找的是这里给出的解释:Callingamapreducejobfromasimplejavaprogram 最佳答案 MRClientA

python - 如何在 python 中为 warc 文件编写流式 mapreduce 作业

我正在尝试使用WARClibrary为warc文件编写mapreduce作业python。以下代码对我有用,但我需要此代码来执行hadoopmapreduce作业。importwarcf=warc.open("test.warc.gz")forrecordinf:printrecord['WARC-Target-URI'],record['Content-Length']我希望此代码从warc文件读取流式输入,即zcattest.warc.gz|warc_reader.py请告诉我如何修改此代码以进行流式输入。谢谢 最佳答案 war

hadoop - 识别 map/reduce 作业瓶颈的正确方法是什么?

在正常的java开发中,如果我想提高应用程序的性能,我通常的过程是运行带有附加分析器的程序,或者在应用程序中嵌入一组检测标记。无论哪种情况,近期目标都是确定应用程序的热点,然后能够衡量我所做的更改的效果。当应用程序是在hadoop集群中运行的map/reduce作业时,正确的类比是什么?当作业的运行速度似乎比您在开发沙箱中运行等效逻辑所预测的慢时,有哪些选项可用于收集性能数据? 最佳答案 Map/Reduce框架在Job-Tracker中查看职位。在这里您将看到映射器和缩减器需要多长时间。一个常见的例子是,如果您在reducer中做

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后,“jps”没有列出任何节点。那么,即使在使用公共(public)hadoopAMI之后,我们还必须为主服务器和从服务器设置hadoop吗?master怎么知道slave的IP地址??谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗?谢谢。 最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

hadoop - 将列名传递给 Hadoop Hive 流作业

我正在Hive中编写一个Hadoop流式处理作业,我希望我的流式处理脚本知道它正在接收的表的列名。我试过设置sethive.cli.print.header=true;但这会将名称打印到控制台,但脚本无法使用它们(据我所知)。理想情况下,我也能够使数据类型可用。HadoopStreamingAPI或Hive中是否有允许我捕获流作业中的列名称的选项?更新:我能够从我的Hive脚本中提取Hadoop环境变量和设置任意变量,并让它们在我的流式脚本中可用。我正在调查访问这些环境变量是否允许我访问数据列名称或以一种骇人听闻的方式传递它们。 最佳答案

hadoop - 无法远程运行 Hadoop 作业

我想从Windows机器远程运行hadoop作业。集群在Ubuntu上运行。基本上,我想做两件事:远程执行hadoop作业。从hadoop输出目录中检索结果。我不知道如何实现这一点。我正在使用hadoop版本1.1.2我尝试在作业配置中传递jobtracker/namenodeURL,但失败了。我尝试了以下示例:Runningjavahadoopjobonlocal/remotecluster结果:始终出现错误,因为无法加载目录。它类似于这篇文章:Exceptionwhilesubmittingamapreducejobfromremotesystem 最佳

hadoop - 即使在使用 yarn 运行时存在映射器,Map-reduce 作业也会出现 ClassNotFound 异常?

我正在运行一个hadoop作业,当我在伪分布式模式下不使用yarn运行它时它工作正常,但是当使用yarn运行时它给我类未找到异常16/03/2401:43:40INFOmapreduce.Job:TaskId:attempt_1458775953882_0002_m_000003_1,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.hadoop.keyword.count.ItemMappernotfoundatorg.apache.hadoop.conf.C

java - 安排 Spark 作业 Java

我有一个Spark作业,它读取HBase表、一些聚合并将数据存储到mongoDB。目前此作业正在使用spark-submit脚本手动运行。我想安排它以固定的时间间隔运行。我如何使用java实现此目的。有图书馆吗?或者我可以用Java中的Thread做到这一点吗?任何建议表示赞赏! 最佳答案 如果您仍想使用spark-submit,我宁愿选择crontab或类似的东西,例如运行bash脚本。但是如果您需要从java运行“spark-submit”,您可以查看Packageorg.apache.spark.launcher.通过这种方法

java - Hadoop 2.7.1 中的作业历史记录服务器不工作

我到处探索,但找不到解决方案。当我运行jps命令时,它不显示正在运行的作业历史服务器。历史服务器的配置设置是什么以及如何启动它?编辑1:当历史服务器停止时,所有以前记录的作业信息都会被删除。如何在集群和/或历史服务器重启后保留所有这些信息? 最佳答案 JobHistoryServer进程必须单独启动。开始:$HADOOP_HOME/sbin/mr-jobhistory-daemon.shstarthistoryserver停止:$HADOOP_HOME/sbin/mr-jobhistory-daemon.shstophistorys

java - HBase多表扫描作业

我正在查看以下场景。我每天发送一个数据文件。我将其添加到HBase中,名称为file-yyyyMMdd格式。所以在一段时间内我有很多数据库,例如tempdb-20121220tempdb-20121221tempdb-20121222tempdb-20121223tempdb-20121224tempdb-20121225现在我想要做的是针对特定日期范围获取列表(如果表与该范围匹配),以便我可以创建索引。我正在使用hbase-0.90.6就我的研究而言,TableMapReduceUtil.initTableMapperJob只需要1个表名。TableMapReduceUtil.ini