草庐IT

hadoop-release

全部标签

hadoop - 如何在 oozie 工作流任务之间传递数据

Oozie有一组丰富的指令来描述任务之间所需的控制流。它是否有任何有助于在这些任务之间传递数据的东西?还是传递数据是一项完全留给用户的练习?更新:我正在使用shell操作来调用spark,因此我需要一个足够通用的解决方案来涵盖该用例。 最佳答案 为了在Oozie工作流任务之间传递数据,您需要将工作流2的输入定义为工作流1的输出。例如:${jobTracker}${nameNode}mapred.input.dir${workflow1_Input}mapred.output.dir${workflow1_Output}${jobTr

java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)

我正在尝试在启用Kerberos身份验证的安全模式下设置单节点Hadoop集群,使用hadoop-2.4.0和jdk1.7.0_25.为此,我按照文档中的描述创建了key表文件。在调试具有属性HADOOP_OPTS的东西时设置为-Dsun.security.krb5.debug=true我看到以下错误消息:Foundunsupportedkeytype(8)fornn/hadoop-kerberos@HADOOP-KERBEROSAddedkey:23version:4Addedkey:16version:4Addedkey:17version:4Addedkey:18version:

java - Hadoop MapReduce 有条件地打印名称对

所以我想弄清楚这个MapReduce程序问题的逻辑,我不需要代码,只需要逻辑方面的帮助,因为我对MapReduce还是新手,我不太熟悉所有可能的解决方法一个问题。我尝试查找类似的程序,但没有成功。问题:给定一个名称列表(为简单起见,只考虑第一个字符)输入:A,BD,FP,EA,BA,CB,AE,P我需要使用MapReduce仅打印那些按字母顺序和相反顺序提到的对(按字母顺序)。所以输出将是:A,BE,P注意:打印的是E,P而不是P,E,因为它必须按字母顺序排列。有人能帮忙吗? 最佳答案 在Map-Reduce程序中,主要问题是:什么

hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中

场景:供应商将提供tar.gz格式的原始提要,其中包含制表符分隔格式的多个文件文件详细信息:a)OneHit等级数据b)多个查找文件c)(a)的一个头文件提要(tar.gz)将被摄取并登陆到BDP原始操作中。查询:希望将这些数据从操作原始区域加载到Pig中以进行数据质量检查过程。如何实现?文件应该提取到hadoop中供我们使用还是可用的替代方案?请指教。谢谢!注意:任何示例脚本都会更有帮助 最佳答案 引用:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

hadoop - 查找正在运行的作业优先级

如何找到在Hadoop中运行的作业使用的优先级?我尝试使用Hadoop命令,如hadoopjob、yarncontainer或mapredjob等,但找不到如何使用获得正在运行的作业优先级。 最佳答案 您可以使用getJobPriority()mapreduce代码中的方法。 关于hadoop-查找正在运行的作业优先级,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3144445

hadoop - 无法描述使用 avro serde 创建的 Hive 表

我已经使用Avroserde创建了一个Hive表。下面是我从网站上复制来创建表格的代码。createtableNEW_TABLErowformatserde'org.apache.hadoop.hive.serde2.avro.AvroSerDe'storedasinputformat'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'outputformat'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'tblproperties('avro.

hadoop - Hive 中 LEFT OUTER JOIN 的全表扫描问题

我正在尝试对配置单元中的2个表执行LEFTOUTERJOIN操作。可以理解,我们在连接的情况下包括了过滤条件和连接条件,从where条件中模仿它们以避免全表扫描。引用:https://gist.github.com/randyzwitch/9abeb66d8637d1a0007c尽管这样做,我的查询还是产生了大量的映射器和缩减器,就好像它在进行全表扫描一样。这是我的查询和解释计划。我不擅长理解这个解释计划。m.date_id和d.REC_CREATED_DATE是各自表中的分区列,因此它实际上应该只扫描这些分区。任何改进我的查询的建议都会有很大帮助。hive>EXPLAINSELECT

hadoop - 无法启动配置单元外壳——无法实例化 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

几个月前我安装了hive0.14。它运行良好。但是当我现在开始时,它会让我陷入错误。安装hive后,我只在我的ubuntu机器上安装了spark、mysql、hbase,但是hbase也没有启动。认为java可能是一个问题,因为我安装了两个jdk版本,卸载了整个java包并安装了oraclejava7并将我的JAVA_HOME指向/usr/lib/jvm/java-7-oracle。这并没有解决我的问题所以安装一个新的hive版本1.0.1,这也不利于我。我在谷歌上搜索了很多相同的错误并尝试应用它但没有运气。我不确定最近安装的spark是否导致我不匹配。有人可以帮我解决这个问题。以下是

hadoop - 使用 PIG 对多列求和

我有多个包含相同列的文件,我正在尝试使用SUM聚合两列中的值。列结构如下IDfirst_countsecond_countnamedesc11010AA_Desc12545AA_Desc13025AA_Desc22020BB_Desc24010BB_Desc如何计算first_count和second_count的总和?IDfirst_countsecond_countnamedesc16580AA_Desc26030BB_Desc下面是我写的脚本,但是当我执行它时出现错误“无法推断SUM的匹配函数,因为它们中的多个都不适合。请使用显式转换。A=LOAD'/output/*/part*

hadoop - 读取、转换并流式传输到 Hadoop

我需要构建一个服务器来读取目录中的大型csv数据文件(100GB),转换一些字段并将它们流式传输到Hadoop集群。这些文件是在随机时间(100秒/天)从其他服务器复制过来的。完成复制文件需要很长时间。我需要:定期检查要处理的新文件(即加密和流式传输)检查csv是否被完全复制以开始加密并行处理多个文件,但阻止两个进程流式传输相同的文件标记文件传输成功马克文件流式传输失败并重新启动流式传输过程。我的问题是:是否有一个开源ETL工具可以提供所有这5个功能,并且可以很好地与Hadoop/SparkStream配合使用?我认为这个过程是相当标准的,但我还找不到。谢谢。