action-packed_草庐IT

hadoop - 如何从 Oozie 工作流将参数传递给 Hadoop ToolRunner(或任何 MapReduce Action)

从命令行，可以按如下方式将参数传递给ToolRunner:hadoopjarmyJar.jarcom.Main-Dprop1=prop1value-Dprop2=prop2value我想调用我的MapReduce作业作为来自Oozie的MapReduce操作的一部分。我尝试按如下方式在工作流中定义属性:param1HelloWorld编辑这就是我尝试从我的MapReduce作业中读取参数的方式:Jobjob=newJob();Configurationconf=job.getConfiguration();System.out.println(conf.get("param1"));但

hadoop - Oozie - 通过 Action 配置在 DistCp 上设置策略

我有一个带有distCp操作的工作流，它运行得相当好。但是，现在我正在尝试更改复制策略，但无法通过操作参数来实现。关于这个主题的文档相当薄弱，查看distCpAction执行器的源代码也无济于事。如果从命令行运行distCp我可以使用命令行参数-strategy{uniformsize|dynamic}设置复制策略。使用该逻辑，我尝试在oozie操作中执行此操作。${jobTracker}${nameNode}mapreduce.job.queuename${poolName}-Dmapreduce.job.queuename=${poolName}-Dmapreduce.job.na

hadoop Action code lt oozie distcp

hadoop - oozie中执行 Action 后删除hdfs路径

执行类似于在操作前删除的prepare标记的操作后，如何删除hdfs路径。...[JOB-TRACKER][NAME-NODE]......[JOB-XML-FILE][PROPERTY-NAME][PROPERTY-VALUE]...[PIG-SCRIPT][PARAM-VALUE]...[PARAM-VALUE][ARGUMENT-VALUE]...[ARGUMENT-VALUE][FILE-PATH]...[FILE-PATH]...... 最佳答案 pig行动中没有等价物。你基本上有两个选择:在您的pig脚本中添加删除命令添

hadoop Action gt lt section oozie oozie-coordinator oozie-workflow

hadoop - 在 Hadoop 集群上使用 Oozie 运行 Sqoop Action 时出现问题

我正在尝试使用Hadoop集群在Oozie中成功运行sqoop-action。每当我检查作业状态时，Oozie都会返回以下状态更新:ActionID状态分机ID分机状态错误代码0000037-140930230740727-oozie-oozi-W@:start:OK-OK-0000037-140930230740727-oozie-oozi-W@sqoop-loadERRORjob_1412278758569_0002FAILED/KILLEDJA0180000037-140930230740727-oozie-oozi-W@sqoop-load-failOK-OKE0729这让我相

时出 hadoop oozie sqoop gt workflow

hadoop - Oozie java-action 不包含 core-site.xml

在新安装的HadoopHDP2.2.2.4上运行Ooziejava操作时，例如尝试访问hdfs，它会访问错误的文件系统:java.lang.IllegalArgumentException:错误的FS:hdfs:/tmp/text.txt,预期:file:///可以通过在Oozie操作中包含core-site.xml来修复:hdfs:/path-to-core-site.xml-on-hdfs但是原因是什么，正确的解决方法是什么？最佳答案 core-site.xml不包含在java-action的类路径中的原因是属性mapredu

java-action core-site hadoop mr-framework framework hdfs oozie

Hadoop in action 专利实例讲解

我正在浏览Hadoop中的专利数据示例。您能否详细解释一下所使用的数据集？专利引用数据集该数据集包含两列引用和被引用专利。引用列是指提交专利的所有者ID？Cited列是指专利ID，它构成了第二个数据集的关键？专利描述数据集此数据集中有多个字段。要为这两个数据集形成映射，是第一个数据集中的引用还是被引用列在第二个数据集的第一列中具有相应的键(专利)? 最佳答案首先让我们澄清一些与专利相关的术语。什么是引用？Citationsaredocumentsthatarelinkedtogetherwhenonedocumentmention

Hadoop action section strong 3858241 hadoop-streaming hadoop-partitioning

hadoop - Oozie Hive Action 挂起，心跳永远

我正在尝试通过我在Hue中创建的Oozie工作流来运行Hive操作，但是操作“心跳”永远不会执行HiveSQL。我读过其他关于永远心跳的文章，但这篇文章似乎发生在不同的时间点，在SQL语句被解析之后。我检查了集群中每个节点的内存，并验证了任务计数参数是否合理。这是hive-config.xml文件:javax.jdo.option.ConnectionURLjdbc:hive://10.1.10.250:10000/testdbJDBCconnectstringjavax.jdo.option.ConnectionDriverNameorg.apache.hadoop.hive.jdb

hadoop Action hive apache oozie

hadoop - map-reduce 中不同组件/ Action 的执行顺序

map-reduce中Action/组件的执行顺序是什么-Mapper-->Combiner-->Shuffling/Sorting-->Partitioner-->Reducer顺序一样吗？？最佳答案这个过程几乎是正确的，但让我们深入了解它。第一个Map阶段将从运行map开始。一旦map处理了输入，它会在保存到本地文件系统之前进行排序，这被称为sort然后copy到本地文件系统，接下来这个数据将被复制到reducer这是shuffle阶段。由于数据已经在每个mapper输出中排序，它根据每个到达reducer所在节点的键执

map-reduce hadoop code section reducer mapreduce

hadoop - 在重新启 Action 业跟踪器之前，我们是否需要将名称节点置于安全模式？

我有一个Hadoop集群运行Cloudera的CDH3，ApacheHadoop的0.20.2等价物。我想重新启动工作跟踪器，因为有些工作没有被杀死。我尝试从命令行杀死它们，命令成功执行，但作业仍处于JobCleanup:Pending状态。无论如何，我想重新启动job-tracker并查看是否清理了作业。我知道重新启Action业跟踪器的命令，但我不确定在重新启Action业跟踪器之前是否需要将name-node置于安全模式。最佳答案您可以尝试使用hadoopjob-kill终止不需要的作业并检查命令状态echo"$?".如果

跟踪器置于 code section hadoop namenode

java - 为什么java action System.out 在Oozie 中执行时消失了？

我正在使用oozie环境。成功完成作业后，我无法在oozie日志中找到System.out.println输出。我用谷歌搜索了好几个小时，然后找到了this但没有结果。从oozieweb控制台我得到了作业ID“0000011-180801114827014-oozie-oozi-W”，然后我尝试使用以下命令获取有关该作业的更多信息:ooziejob-ooziehttp://localhost:11000/oozie/-info0000011-180801114827014-oozie-oozi-W然后我从JobCompleted"16546"操作中获取externalId，我认为作业I

行时 java strong oozie section hadoop logging hadoop-yarn