草庐IT

Action_Send_Multiple

全部标签

hadoop - Oozie - 通过 Action 配置在 DistCp 上设置策略

我有一个带有distCp操作的工作流,它运行得相当好。但是,现在我正在尝试更改复制策略,但无法通过操作参数来实现。关于这个主题的文档相当薄弱,查看distCpAction执行器的源代码也无济于事。如果从命令行运行distCp我可以使用命令行参数-strategy{uniformsize|dynamic}设置复制策略。使用该逻辑,我尝试在oozie操作中执行此操作。${jobTracker}${nameNode}mapreduce.job.queuename${poolName}-Dmapreduce.job.queuename=${poolName}-Dmapreduce.job.na

Hadoop安装配置 : multiple versions side-by-side on same host

能否在同一个系统上以伪分布式的方式安装不同版本的Hadoop?其实我想探索不同版本的hadoop-1.x和hadoop-2.x的特性,我已经在运行Linux的两个不同系统上配置了hadoop-1.x和hadoop-2.x。有什么方法可以在同一台机器上配置吗? 最佳答案 是的,可以在同一台主机上并排安装多个版本的Hadoop软件。将不同版本的Hadoop软件提取到单独的子目录中。为不同的版本创建单独的配置文件(core-site.xml、hdfs-site.xml、yarn-site.xml等),并将这些文件集保存在单独的目录中。确保

hadoop - oozie中执行 Action 后删除hdfs路径

执行类似于在操作前删除的prepare标记的操作后,如何删除hdfs路径。...[JOB-TRACKER][NAME-NODE]......[JOB-XML-FILE][PROPERTY-NAME][PROPERTY-VALUE]...[PIG-SCRIPT][PARAM-VALUE]...[PARAM-VALUE][ARGUMENT-VALUE]...[ARGUMENT-VALUE][FILE-PATH]...[FILE-PATH]...... 最佳答案 pig行动中没有等价物。你基本上有两个选择:在您的pig脚本中添加删除命令添

java - Hadoop : Multiple Emits from one Map function

我正在用java编写一个小的hadoop程序,我的要求是从一个Map方法执行两个Emits,并在一个Reduce方法中处理这两个Emits。这可能吗?如果可能,我如何区分这两个Emits以便我可以在我的Reduce方法中以不同方式处理它们?我对此进行了很多搜索,但无法获得任何具体信息。我不允许使用任何外部库。 最佳答案 map/reduce任务将键/值作为输入。值不必是像WordCount这样的大多数示例中的字符串,它也可以是复杂的结构。你可以有一个结构,其中有两个字段对应于两个发射器,并且该键/值对将自动发送到一个缩减器。

hadoop - 在 Hadoop 集群上使用 Oozie 运行 Sqoop Action 时出现问题

我正在尝试使用Hadoop集群在Oozie中成功运行sqoop-action。每当我检查作业状态时,Oozie都会返回以下状态更新:ActionID状态分机ID分机状态错误代码0000037-140930230740727-oozie-oozi-W@:start:OK-OK-0000037-140930230740727-oozie-oozi-W@sqoop-loadERRORjob_1412278758569_0002FAILED/KILLEDJA0180000037-140930230740727-oozie-oozi-W@sqoop-load-failOK-OKE0729这让我相

hadoop - Oozie java-action 不包含 core-site.xml

在新安装的HadoopHDP2.2.2.4上运行Ooziejava操作时,例如尝试访问hdfs,它会访问错误的文件系统:java.lang.IllegalArgumentException:错误的FS:hdfs:/tmp/text.txt,预期:file:///可以通过在Oozie操作中包含core-site.xml来修复:hdfs:/path-to-core-site.xml-on-hdfs但是原因是什么,正确的解决方法是什么? 最佳答案 core-site.xml不包含在java-action的类路径中的原因是属性mapredu

java - Hadoop : set a variable like hashSet only once so that it can be utilized multiple times in each map task

您好,我有一个HashSet,它需要在hadoop中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎提出任何建议。 最佳答案 看来你还没有真正了解Hadoop的执行策略。如果你是分布式模式,你不能在多个map任务中共享一个集合(HashSet)。这是因为任务是在它们自己的JVM中执行的,并且它不是确定性的,即使不使用jvm重用,你的集合在jvm被重置后仍然存在。您可以做的是在计算开始时为每个任务设置一个HashSet。因此您可以覆盖setup(Contextctx)方法。这将在调用映射方法之前

hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

我写了一个perl脚本,其中调用了copyFromLocal来上传文件。当它运行时,WARNipc.Client:interruptedwaitingtosendparamstoserver发生。我检查了刚刚上传的HDFS上的所有文件。看来都复制成功了。谁知道那个警告是什么意思?完整的警告信息12/10/2311:41:07WARNipc.Client:interruptedwaitingtosendparamstoserverjava.lang.InterruptedExceptionatjava.util.concurrent.locks.AbstractQueuedSynchro

Hadoop in action 专利实例讲解

我正在浏览Hadoop中的专利数据示例。您能否详细解释一下所使用的数据集?专利引用数据集该数据集包含两列引用和被引用专利。引用列是指提交专利的所有者ID?Cited列是指专利ID,它构成了第二个数据集的关键?专利描述数据集此数据集中有多个字段。要为这两个数据集形成映射,是第一个数据集中的引用还是被引用列在第二个数据集的第一列中具有相应的键(专利)? 最佳答案 首先让我们澄清一些与专利相关的术语。什么是引用?Citationsaredocumentsthatarelinkedtogetherwhenonedocumentmention

hadoop - Oozie Hive Action 挂起,心跳永远

我正在尝试通过我在Hue中创建的Oozie工作流来运行Hive操作,但是操作“心跳”永远不会执行HiveSQL。我读过其他关于永远心跳的文章,但这篇文章似乎发生在不同的时间点,在SQL语句被解析之后。我检查了集群中每个节点的内存,并验证了任务计数参数是否合理。这是hive-config.xml文件:javax.jdo.option.ConnectionURLjdbc:hive://10.1.10.250:10000/testdbJDBCconnectstringjavax.jdo.option.ConnectionDriverNameorg.apache.hadoop.hive.jdb