草庐IT

作业组

全部标签

logging - Hadoop 作业中的日志记录如何工作?

登录Hadoop作业如何工作?使用SLF4J和Logback,我需要什么样的配置才能在一个地方看到所有日志输出?JobTracker会整理Hadoop作业的STDOUT吗? 最佳答案 每个数据节点上的日志目录包含一个子目录userlogs。这包含最近maptask尝试的子目录。那是针对maptask的每个实例。由于任务尝试在其名称中包含作业ID,因此您可以找出特定作业在何处创建的日志。任务尝试目录包含文件:标准错误标准输出系统日志这些包含各自的输出。您可以通过从列出的作业导航到其任务、单击任务并选择其输出来从JobTrackerWe

java - 远程运行 Hbase ImportTSV 作业

我正在尝试运行HBaseimportTSVhadoop作业以将数据从TSV文件加载到HBase。我正在使用以下代码。Configurationconfig=newConfiguration();Iteratoriter=config.iterator();while(iter.hasNext()){Objectobj=iter.next();System.out.println(obj);}Jobjob=newJob(config);job.setJarByClass(ImportTsv.class);job.setJobName("ImportTsv");job.getConfigu

hadoop - 我应该如何处理映射作业中的中间数据?

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭10年前。我正在考虑为HBase编写一种查询语言。使用这种查询语言,用户将能够应用过滤器、跨行映射函数以及聚合/减少数据。(而且,它是一种特定于领域的查询语言。)想象一下数据集非常大,如果使用HBase,这种情况经常发生。我的问题是:我应该如何处理不同过滤、映射和聚合之间的中间数据。我应该将数据保存在文件系统上吗?这似乎有点浪费。我是否应该尝试组合函数并一次完成所有操作?我意识到这在一定程度上取决于我想要

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我遵循本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建mongodb-hadoop。我尝试构建TreasuryYield示例(我的Hadoop版本是0.20.2。),但是当我提交MapReduce作业时出现以下错误:12/10/2414:01:09INFOutil.MongoTool:Createdaconf:'Configuration:core-default.xml,core-site.xml,mongo-defaults.xml,mongo-treasury_yield.xml'on{classcom.mon

java - Hadoop 示例作业在独立模式下失败并显示 : "Unable to load native-hadoop library"

我正在尝试让最简单的Hadoop“helloworld”设置正常工作,但是当我运行以下命令时:hadoopjar/usr/share/hadoop/hadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'我收到以下警告:12/11/3016:36:40WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable完整的错误跟踪如下:12/11/3016:57:18WARNu

hadoop - 是否有一个好的库可以帮助使用 Hadoop Streaming 和 Python 链接 MapReduce 作业?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭去年。ImprovethisquestionThis问题回答了我的部分问题,但不完全。我如何运行管理它的脚本,它来self的本地文件系统吗?MrJob或Dumbo之类的东西究竟在哪里出现?还有其他选择吗?我正在尝试运行K-Means,其中每次迭代(MapReduce作业)输出将作为HadoopStreaming和Python下一次迭代的输入。我没有太多经验,任何信息都可以帮助我完成这项工作。谢谢!

hadoop - 如何使用 BMC Control-M 安排 hadoop 作业?

有人知道如何使用BMCControl-M软件控制/调度Hadoop作业吗?有可能吗?我已经尝试过Ooozie,并希望探索更多用于安排hadoop作业的选项。请指教! 最佳答案 答案是肯定的。这个答案会变得更好。如今,您可以使用各种Hadoop组件提供的丰富命令行界面。然后,您可以将这些CLI作为命令单独运行,或者将它们组合成直接嵌入到Control-M作业中的脚本,或者封装在shell脚本(Bash是一种流行的脚本)中并使用Control-M进行调度。我提供了一个示例脚本,该脚本执行一些HDFS操作,然后运行​​MapReduce作

Stage-1 : number of reducers always shows 1. 的 Hadoop 作业信息 我无法更改它。我该如何改变它?

我在hadoop集群上使用Hive。每当我尝试运行配置单元查询时,它总是显示为HadoopjobinformationforStage-1:numberofreducers:1我使用了以下Hive配置:hive.exec.reducers.bytes.per.reducer=1000000000hive.exec.reducers.max=999请告诉我如何增加reducer的数量。谢谢。 最佳答案 确保您已完成以下几点:您的mapred.reduce.tasks默认为-1。通过将此属性设置为-1,Hive将自动计算出reducer

java - 如何获取 Hadoop 执行的已完成作业的统计信息?

当我们在Hadoop上运行数据密集型作业时。Hadoop执行作业。现在我想要的是工作完成的时间。它会给我有关的统计数据执行的工作即;耗时、mapper数量、reducer数量等有用信息。作业执行期间在浏览器中显示的信息,如作业跟踪器、数据节点。但是我如何才能在我的应用程序中获得统计信息,该应用程序在Hadoop上运行作业并在作业完成时为我提供报告之类的结果。我的应用程序是在JAVA中任何可以帮助我的API。我们将不胜感激。 最佳答案 查看JobClient的以下方法:getMapTaskReports(JobID)getReduce

java - 如何计算 MR 作业中 HDFS 中的文件数?

就此而言,我是Hadoop和Java的新手。我正在尝试从我正在编写的MapReduce驱动程序计算HDFS上文件夹中的文件数。我想在不调用HDFSShell的情况下执行此操作,因为我希望能够传入我在运行MapReduce作业时使用的目录。我尝试了很多方法,但由于我对Java的经验不足,都没有成功实现。如有任何帮助,我们将不胜感激。谢谢,游牧。 最佳答案 您可以只使用文件系统并遍历路径内的文件。这是一些示例代码intcount=0;FileSystemfs=FileSystem.get(getConf());booleanrecurs