作业队

hadoop - 无法找到 oozie 作业的尝试日志飞行位置(stderr 和 stdout)

我正在从事一个项目，该项目需要使用任何oozie工作流和YARN中的任何作业的所有日志。我能够在hdfstmp/logs中找到yarn日志，并通过其API找到一些oozie日志文件，但我无法找到Mapreduce作业的尝试日志文件https://i.imgur.com/KL0HhVT.png你们知道这些文件保存在哪里吗？谢谢!我已经搜索过oozieapi，在它的服务器和hdfs的tmp/logs中，它似乎不在那里。最佳答案您可以通过两种方式获取整个YARN应用程序日志。通过YARNURL>应用程序>搜索感兴趣的应用程序ID>单击

python - 包含 HTML 标记的文件上的 Hadoop MapReduce 作业

我有一堆大型HTML文件，我想对它们运行HadoopMapReduce作业以查找最常用的词。我用Python编写了映射器和缩减器，并使用Hadoop流式处理来运行它们。这是我的映射器:#!/usr/bin/envpythonimportsysimportreimportstringdefremove_html_tags(in_text):'''RemoveanyHTMLtagsthatarefound.'''globalflagin_text=in_text.lstrip()in_text=in_text.rstrip()in_text=in_text+"\n"ifflag==True

MapReduce python in_text word count hadoop

java - 由 cron 调用时 Hadoop 作业失败

我创建了以下用于调用hadoop作业的shell脚本:#!/bin/bash/opt/hadoop/bin/hadoopjar/path/to/job.jarcom.do.something...&wait%1STATUS=$?if[$STATUS-eq0]thenecho"SUCCESS"|mailx-s"Status:"$STATUS-r"mail@mysite.com""mail@mysite.com"exit$STATUSelseecho"FAILED"|mailx-s"Status:"$STATUS-r"mail@mysite.com""mail@mysite.com"exi

用时 Hadoop code section 34 java shell cron

hadoop - 作业的可变/循环序列

我正在考虑使用hadoop/mapreduce来处理一个项目，但还没有完全弄清楚如何设置一个由可变数量的级别组成的工作流，这些级别应该按顺序处理。例如:Job1:MapsourcedataintoXlevels.Job2:MapReduceLevel1->appendstoLevel2Job3:MapReduceLevel2->appendstoLevelNJobN:MapReduceLevelN->appendstoLevelN+1依此类推，直到最后一关。关键是每个级别都必须包含自己特定的源数据以及上一级别的结果。我看过pig、hive、hamake和cascading，但还没有看到

可变 hadoop section noreferrer com

configuration - 能够限制 hadoop hive mapred 作业的最大 reducer ？

我试过在查询前加上:setmapred.running.reduce.limit=25;和sethive.exec.reducers.max=35;最后一个将530个reducer的工作减少到35...这让我觉得它会尝试将530个reducer的工作值(value)降低到35个。现在给setmapred.tasktracker.reduce.tasks.maximum=3;尝试查看该数字是否是每个节点的某种最大值(之前在具有70个潜在reducer的集群上为7)。更新:setmapred.tasktracker.reduce.tasks.maximum=3;没有效果，但值得一试。

configuration 能够 section reducer code hadoop hive

从 Cassandra 读取的 Hadoop 作业似乎只在主机上运行(从机完全空闲)

但是当我运行hadoop包含的wordcount示例(dfs版本)时，我看到负载被分配到所有从属设备。Cassandra中的ColumnFamilyInputFormat有什么特别之处？我需要在hadoopconfig中设置任何其他参数吗？谢谢，维维克最佳答案我建议从Brisk(http://www.datastax.com/brisk)开始，而不是尝试从头开始设置hadoop-on-Cassandra，因为如果您采用这种方法，则需要对这两个系统有相当深入的了解. 关于从Cassan

机上 Cassandra section 中设 hadoop

hadoop - 可以使用 Map Reduce 和 Hadoop 并行处理批处理作业吗？

我们的组织有数百个通宵运行的批处理作业。其中许多工作需要2、3、4小时才能完成；有些甚至需要长达7个小时。目前，这些作业以单线程模式运行，因此我们提高性能的尝试受到具有额外CPU和内存的机器垂直扩展的限制。我们正在探索利用并行处理技术(例如MapReduce)来缩短完成这些作业所需时间的想法。我们的大多数批处理过程通常会从数据库中提取大型数据集，逐行处理数据，然后将结果作为文件转储到另一个数据库中。在大多数情况下，单个行的处理独立于其他行。现在我们正在研究MapReduce框架，以将这些作业分解成更小的部分以进行并行处理。我们的组织拥有超过400名员工的台式PC，我们希望在下类时间利用

hadoop section 的 MapReduce parallel-processing

amazon-s3 - 关于 Amazon EMR 上的流式作业流程的问题

我必须使用AmazonEC2+S3+RDS+EMR制作一个相当复杂的数据处理系统，我有一些一般性问题希望您能帮助我:我需要使用R，然后我必须使用StreamingJobFlow。这是否意味着我失去了Hive的功能并且我无法在EMR作业之上执行Hive查询来处理该数据？我可以运行多个作业流程并与之交互吗？如何使用从属作业？您能否在完成后重新运行作业？我不想做一次计算，我想根据数据进化。我可以将变量传递给乔布斯吗？自动执行此操作的正确方法是什么？最佳答案 IneedtouseR,thenIhavetouseStreamingJobFl

流式作业流程 blockquote section 工作流程 amazon-s3 hadoop hive amazon-emr

java - 在一个驱动程序中运行依赖的 hadoop 作业

我目前有两个hadoop作业，其中第二个作业需要将第一个作业的输出添加到分布式缓存中。目前我手动运行它们，所以在第一个作业完成后，我将输出文件作为参数传递给第二个作业，它的驱动程序将它添加到缓存中。第一个作业只是一个简单的map作业，我希望在依次执行两个作业时可以运行一个命令。谁能帮我把第一个作业的输出放到分布式缓存中，以便它可以传递到第二个作业中？谢谢编辑:这是作业1的当前驱动程序:publicclassPlaceDriver{publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfigur

中运驱动 job class otherArgs java hadoop distributed-cache

performance - Hadoop Map reduce - 如何加速作业启动/设置

我正在使用mongo-hadoop适配器来运行map/reduce作业。除了启动时间和工作所花费的时间外，一切都很好。即使数据集非常小，map时间也为13秒，reduce时间为12秒。事实上，我已经更改了mapred-site.xml和core-site.xml中的设置。但是map/reduce花费的时间似乎是恒定的。有什么办法可以减少它。我还从hanborq探索了优化的hadoop分布.他们使用工作池来更快地启动/设置作业。由于hanborq分布不是很活跃，是否有其他地方可用的等效项。它是4个月前更新的，基于旧版本的hadoop。我的一些设置如下:mapred-site.xml:ma

performance Hadoop property gt lt mapreduce jobs launch-time

163 164 165166167 168 169