作业队_草庐IT

hadoop - 执行后保留来自 Hadoop 作业的日志

我想知道是否有一种简单的方法可以获取特定运行的所有作业日志/任务尝试日志，并将它们保存在某个地方(也许是HDFS)？我知道日志位于/var/log/hadoop-0.20-mapreduce/userlogs的本地文件系统中，用于任何特定作业的任务尝试，并且我可以将脚本写入SSH以每个从节点并将它们全部收集起来。但是，如果有意义的话，我会尽量避免这种情况-也许有一些我不知道的Hadoop内置功能？我确实找到了thislink，这是旧的，但包含一些有用的信息--但不包括我正在寻找的答案。mapreduce.job.userlog.retain.hours默认设置为24，因此任何作业的日志

hadoop - Hive Query Fail with Error 此作业的任务数 31497 超出了配置的限制 30000

我在一个有2250个分区的表上运行配置单元查询，我收到这个错误，我不确定它超出了哪些任务以及我该如何解决这个问题。谢谢，Hive历史文件=/tmp/hadoop/hive_job_log_hadoop_201310040052_1692176679.txtMapReduce作业总数=2启动Job1outof2未指定reducetask的数量。根据输入数据大小估计:10为了改变reducer的平均负载(以字节为单位):设置hive.exec.reducers.bytes.per.reducer=为了限制reducer的最大数量:设置hive.exec.reducers.max=为了设置固

java - S3DistCp 作业失败 : -- dest doesn't match

我正在尝试使用s3DistCp将1个S3文件夹中的一些小文件合并到另一个S3文件夹中。脚本类似于以下内容:elastic-mapreduce--jobflowj-33EDUGSQCN0PZ--jar\/home/hadoop/lib/emr-s3distcp-1.0.jar\--args'--src,s3://li-test/data,\--dest,s3://li-test/result,\--groupBy,[0-9]*,\--targetSize,128'但我收到如下java.lang.RuntimeException错误。需要帮助。谢谢!线程“main”中的异常java.lan

hadoop - 以编程方式查找正在运行的 Hadoop 作业的失败 TaskAttempts

如果我进入任务跟踪器并查看正在运行的作业，我可以轻松地看到正在运行/已完成/失败/已终止的任务尝试，并深入了解有关它们的更多信息。我也希望能够以编程方式访问此信息，但是JobClient类似乎没有任何方法可以直接访问此信息。TaskReportJobClient.getMapTaskReports()和JobClient.getReduceTaskReports()函数返回的类似乎是最接近的东西，但这似乎只有关于正在运行或已完成的任务尝试的信息。有没有办法访问有关给定任务的所有任务尝试的信息？最佳答案可能有更好的方法，但这是我能

java - 如何将一个 mapreduce 作业的输出作为另一个 mapreduce 作业的输入？

我是mapreduce和hadoop的新手。我阅读了mapreduce的示例和设计模式...好的，我们可以进入正题了。我们正在开发一种软件，可以监控系统并定期捕获它们的CPU使用情况，比如每5秒一次。我们绘制了一系列时间段内系统的使用情况图，比如过去12小时、上周等的CPU使用情况。为此我们使用了Oracle数据库。目前我们正计划迁移到hadoop。我们讨论并提出了如下的mapreduce设计:我们应该运行2个mapreduce作业第一份工作:为所有系统收集持久化数据并按系统ID对它们进行分组(归约)假设输出为，pc-1:[listofrecordedcpuuseges(ineve

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示？它对调整hadoop集群/pig工作流有用吗？网上是否有此类参数的列表及其值的解释？最佳答案此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值，但它实际上是一个位设置，用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身，您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

java - Hama BSP 中此作业的运行时分区失败

开始运行hamaBSP作业时遇到以下问题。当hama在实际运行我自己的代码之前尝试加载和分区输入数据时，会发生此异常。这是一些网站中讨论的已知问题，但不幸的是没有已知原因(例如，参见here)。当我只运行部分数据集时，我的BSP工作完全正常。但是，当我运行完整的数据集时，问题出现了:(我能知道如何解决或避免这个问题吗？13/11/1801:19:30INFObsp.FileInputFormat:Totalinputpathstoprocess:3213/11/1801:19:30INFObsp.FileInputFormat:Totalinputpathstoprocess:3213

apache - Hive 查询花费大量时间来启动 map-reduce 作业

我们正在使用Hive进行临时查询，并且有一个Hive表，该表按两个字段(date,id)进行分区。现在每个日期大约有1400个ID，所以在一天左右添加了很多分区。实际数据驻留在s3中。现在我们面临的问题是假设我们从表格中执行一个月的selectcount(*)然后启动map需要相当长的时间(大约:1小时52分钟)减少工作。当我在Hive详细模式下运行查询时，我可以看到它这次花费的时间实际上决定了要生成多少个映射器(计算拆分)。有什么方法可以减少启动map-reduce作业的延迟时间吗？这是在此延迟时间内记录的日志消息之一:13/11/1907:11:06INFOmapred.FileI

java - 如何使用 Oozie 运行 MapReduce ToolRunner 作业？

我开发了一个使用ToolRunner的MapReduce应用程序。基于用户传递的参数和配置属性，应用程序以某种方式设置作业:选择特定的输入/输出格式，选择映射器和缩减器类等。此逻辑在run(我的主类中的String[]args)方法，它实现了Configured和Tool。Oozie支持MapReduce操作节点，但问题是我不能将它们用于我的自定义ToolRunner应用程序。MapReduce操作仅允许通过配置输入/输出格式、mapper/reducer类和键/值类来定义静态作业。我的应用程序基于更高级别的业务逻辑动态执行此操作。该操作应该能够执行类似于此命令行的操作:hadoopj

python - 合并 MapReduce 作业的输出文件

我用Python编写了Mapper和Reducer，并使用HadoopStreaming在Amazon的ElasticMapReduce(EMR)上成功执行了它。最终结果文件夹包含三个不同文件part-00000、part-00001和part-00002中的输出。但我需要将输出作为一个文件。有什么办法可以做到吗？这是我的映射器代码:#!/usr/bin/envpythonimportsysforlineinsys.stdin:line=line.strip()words=line.split()forwordinwords:print'%s\t%s'%(word,1)这是我的Redu