hadoop-mapreduce

hadoop - 安全模式下的 Oozie 无效用户

配置oozie以使用hadoop-2.6.0并启用kerberos安全性。我没有使用kinit命令获得票证，但是当我使用以下命令提交作业时，ooziejob-ooziehttp://hostname:11000/oozie-configjob.properties-run它抛出以下异常，Error:E0501:E0501:Couldnotperformauthorizationoperation,User:oozie/hostname@EXAMPLE.COMisnotallowedtoimpersonateKumar我知道如何解决上述错误，但我的问题是Kumar是我的本地帐户用户名。当

json - Hadoop 中的 Twitter json 数据

我已经将Twitter数据流式传输到HDFS。这是我的Twitter代理配置:#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1Twitter-agent.sinks=sink1#configuringsourcesTwitter-agent.sources.source1.type=com.cloudera.flume.source.TwitterSourceTwitter-agent.sources.source1.channels=channel1Twitter

json Twitter 34 Twitter-agent hadoop hive

hadoop - Hadoop中的HBASE和HDFS有什么区别？

实际区别是什么，当需要存储数据时应该何时使用另一个？最佳答案请阅读此post一个很好的解释。但一般来说，HBASE运行在HDFS之上。HDFS是一个分布式文件系统，就像任何其他文件系统(Unix/Windows)一样，而HBASE就像一个数据库，它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。关于hadoop-Hadoop中的HBASE和HDFS有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

hadoop section stackoverflow HBASE

hadoop - Output.collect mapreduce 似乎没有取正确的值？

我是Hadoop的新手，两天来我一直在努力弄清楚为什么output.collect没有收集正确的值。我自己解释一下:事实上，(为了简化起见)我有以下映射方法:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{try{ForXmlHandlingmessage=(ForXmlHandling)unmarshaller.unmarshal(newStringReader(value.toString()));MyObjectrow=XmlParse

mapreduce collect section MyObject hadoop

hadoop - Hadoop 中的内部存储

我是Hadoop新手，对它的内部存储有疑问。据我所知，HDFS中的所有内容都存储为键/值对。现在，在Yarn的帮助下，出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据，如流和数据。这些类型的数据如何存储在HDFS内部？例如，关系表的行是否以某种方式转换为键/值对？即使使用Hive和Hcatalog，您也可以创建表并向其中加载数据。所有这些都是如何在hadoop内部完成的？提前致谢最佳答案我认为数据不会作为键/值存储在HDFS上。它的存储方式与普通文件一样，以非结构化格式存储。但是，当您运行MapReduce作业

hadoop section 的如流 relational-database hdfs sqoop

hadoop - 如何在 oozie 工作流任务之间传递数据

Oozie有一组丰富的指令来描述任务之间所需的控制流。它是否有任何有助于在这些任务之间传递数据的东西？还是传递数据是一项完全留给用户的练习？更新:我正在使用shell操作来调用spark，因此我需要一个足够通用的解决方案来涵盖该用例。最佳答案为了在Oozie工作流任务之间传递数据，您需要将工作流2的输入定义为工作流1的输出。例如:${jobTracker}${nameNode}mapred.input.dir${workflow1_Input}mapred.output.dir${workflow1_Output}${jobTr

何在传递 lt gt workflow hadoop pipeline oozie oozie-coordinator

java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)

我正在尝试在启用Kerberos身份验证的安全模式下设置单节点Hadoop集群，使用hadoop-2.4.0和jdk1.7.0_25.为此，我按照文档中的描述创建了key表文件。在调试具有属性HADOOP_OPTS的东西时设置为-Dsun.security.krb5.debug=true我看到以下错误消息:Foundunsupportedkeytype(8)fornn/hadoop-kerberos@HADOOP-KERBEROSAddedkey:23version:4Addedkey:16version:4Addedkey:17version:4Addedkey:18version:

不支 hadoop-kerberos code default default_tkt_enctypes java authentication hadoop kerberos

java - Hadoop MapReduce 有条件地打印名称对

所以我想弄清楚这个MapReduce程序问题的逻辑，我不需要代码，只需要逻辑方面的帮助，因为我对MapReduce还是新手，我不太熟悉所有可能的解决方法一个问题。我尝试查找类似的程序，但没有成功。问题:给定一个名称列表(为简单起见，只考虑第一个字符)输入:A,BD,FP,EA,BA,CB,AE,P我需要使用MapReduce仅打印那些按字母顺序和相反顺序提到的对(按字母顺序)。所以输出将是:A,BE,P注意:打印的是E,P而不是P,E，因为它必须按字母顺序排列。有人能帮忙吗？最佳答案在Map-Reduce程序中，主要问题是:什么

MapReduce Hadoop code section java

hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中

场景:供应商将提供tar.gz格式的原始提要，其中包含制表符分隔格式的多个文件文件详细信息:a)OneHit等级数据b)多个查找文件c)(a)的一个头文件提要(tar.gz)将被摄取并登陆到BDP原始操作中。查询:希望将这些数据从操作原始区域加载到Pig中以进行数据质量检查过程。如何实现？文件应该提取到hadoop中供我们使用还是可用的替代方案？请指教。谢谢!注意:任何示例脚本都会更有帮助最佳答案引用:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

hadoop Pig section strong load-store-functions compression apache-pig

hadoop - 查找正在运行的作业优先级

如何找到在Hadoop中运行的作业使用的优先级？我尝试使用Hadoop命令，如hadoopjob、yarncontainer或mapredjob等，但找不到如何使用获得正在运行的作业优先级。最佳答案您可以使用getJobPriority()mapreduce代码中的方法。关于hadoop-查找正在运行的作业优先级，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/3144445

hadoop 查找 section code jobs

32 33 343536 37 38