作业组

logging - Hadoop 作业中的日志记录如何工作？

登录Hadoop作业如何工作？使用SLF4J和Logback，我需要什么样的配置才能在一个地方看到所有日志输出？JobTracker会整理Hadoop作业的STDOUT吗？最佳答案每个数据节点上的日志目录包含一个子目录userlogs。这包含最近maptask尝试的子目录。那是针对maptask的每个实例。由于任务尝试在其名称中包含作业ID，因此您可以找出特定作业在何处创建的日志。任务尝试目录包含文件:标准错误标准输出系统日志这些包含各自的输出。您可以通过从列出的作业导航到其任务、单击任务并选择其输出来从JobTrackerWe

logging Hadoop section 子目子目录 mapreduce slf4j logback

java - 远程运行 Hbase ImportTSV 作业

我正在尝试运行HBaseimportTSVhadoop作业以将数据从TSV文件加载到HBase。我正在使用以下代码。Configurationconfig=newConfiguration();Iteratoriter=config.iterator();while(iter.hasNext()){Objectobj=iter.next();System.out.println(obj);}Jobjob=newJob(config);job.setJarByClass(ImportTsv.class);job.setJobName("ImportTsv");job.getConfigu

ImportTSV Hbase section hadoop 中运 java

hadoop - 我应该如何处理映射作业中的中间数据？

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭10年前。我正在考虑为HBase编写一种查询语言。使用这种查询语言，用户将能够应用过滤器、跨行映射函数以及聚合/减少数据。(而且，它是一种特定于领域的查询语言。)想象一下数据集非常大，如果使用HBase，这种情况经常发生。我的问题是:我应该如何处理不同过滤、映射和聚合之间的中间数据。我应该将数据保存在文件系统上吗？这似乎有点浪费。我是否应该尝试组合函数并一次完成所有操作？我意识到这在一定程度上取决于我想要

何处 hadoop section notice class hbase

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我遵循本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建mongodb-hadoop。我尝试构建TreasuryYield示例(我的Hadoop版本是0.20.2。)，但是当我提交MapReduce作业时出现以下错误:12/10/2414:01:09INFOutil.MongoTool:Createdaconf:'Configuration:core-default.xml,core-site.xml,mongo-defaults.xml,mongo-treasury_yield.xml'on{classcom.mon

mongodb MongoOutputFormat java hadoop Configuration mapreduce mongodb-hadoop

java - Hadoop 示例作业在独立模式下失败并显示 : "Unable to load native-hadoop library"

我正在尝试让最简单的Hadoop“helloworld”设置正常工作，但是当我运行以下命令时:hadoopjar/usr/share/hadoop/hadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'我收到以下警告:12/11/3016:36:40WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable完整的错误跟踪如下:12/11/3016:57:18WARNu

native-hadoop amp hadoop java mapred ubuntu-12.04

hadoop - 是否有一个好的库可以帮助使用 Hadoop Streaming 和 Python 链接 MapReduce 作业？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭去年。ImprovethisquestionThis问题回答了我的部分问题，但不完全。我如何运行管理它的脚本，它来self的本地文件系统吗？MrJob或Dumbo之类的东西究竟在哪里出现？还有其他选择吗？我正在尝试运行K-Means，其中每次迭代(MapReduce作业)输出将作为HadoopStreaming和Python下一次迭代的输入。我没有太多经验，任何信息都可以帮助我完成这项工作。谢谢!

Streaming MapReduce section class notice hadoop machine-learning hadoop-streaming mrjob

hadoop - 如何使用 BMC Control-M 安排 hadoop 作业？

有人知道如何使用BMCControl-M软件控制/调度Hadoop作业吗？有可能吗？我已经尝试过Ooozie，并希望探索更多用于安排hadoop作业的选项。请指教! 最佳答案答案是肯定的。这个答案会变得更好。如今，您可以使用各种Hadoop组件提供的丰富命令行界面。然后，您可以将这些CLI作为命令单独运行，或者将它们组合成直接嵌入到Control-M作业中的脚本，或者封装在shell脚本(Bash是一种流行的脚本)中并使用Control-M进行调度。我提供了一个示例脚本，该脚本执行一些HDFS操作，然后运行MapReduce作

hadoop Control-M section scheduling

Stage-1 : number of reducers always shows 1. 的 Hadoop 作业信息我无法更改它。我该如何改变它？

我在hadoop集群上使用Hive。每当我尝试运行配置单元查询时，它总是显示为HadoopjobinformationforStage-1:numberofreducers:1我使用了以下Hive配置:hive.exec.reducers.bytes.per.reducer=1000000000hive.exec.reducers.max=999请告诉我如何增加reducer的数量。谢谢。最佳答案确保您已完成以下几点:您的mapred.reduce.tasks默认为-1。通过将此属性设置为-1，Hive将自动计算出reducer

reducers Hadoop section reducer hive

java - 如何获取 Hadoop 执行的已完成作业的统计信息？

当我们在Hadoop上运行数据密集型作业时。Hadoop执行作业。现在我想要的是工作完成的时间。它会给我有关的统计数据执行的工作即；耗时、mapper数量、reducer数量等有用信息。作业执行期间在浏览器中显示的信息，如作业跟踪器、数据节点。但是我如何才能在我的应用程序中获得统计信息，该应用程序在Hadoop上运行作业并在作业完成时为我提供报告之类的结果。我的应用程序是在JAVA中任何可以帮助我的API。我们将不胜感激。最佳答案查看JobClient的以下方法:getMapTaskReports(JobID)getReduce

Hadoop java apache section hdfs hadoop-plugins

java - 如何计算 MR 作业中 HDFS 中的文件数？

就此而言，我是Hadoop和Java的新手。我正在尝试从我正在编写的MapReduce驱动程序计算HDFS上文件夹中的文件数。我想在不调用HDFSShell的情况下执行此操作，因为我希望能够传入我在运行MapReduce作业时使用的目录。我尝试了很多方法，但由于我对Java的经验不足，都没有成功实现。如有任何帮助，我们将不胜感激。谢谢，游牧。最佳答案您可以只使用文件系统并遍历路径内的文件。这是一些示例代码intcount=0;FileSystemfs=FileSystem.get(getConf());booleanrecurs

java HDFS section stackoverflow FileSystem hadoop mapreduce

43 44 454647 48 49