草庐IT

hadoop-mapreduce

全部标签

hadoop - 安全模式下的 Oozie 无效用户

配置oozie以使用hadoop-2.6.0并启用kerberos安全性。我没有使用kinit命令获得票证,但是当我使用以下命令提交作业时,ooziejob-ooziehttp://hostname:11000/oozie-configjob.properties-run它抛出以下异常,Error:E0501:E0501:Couldnotperformauthorizationoperation,User:oozie/hostname@EXAMPLE.COMisnotallowedtoimpersonateKumar我知道如何解决上述错误,但我的问题是Kumar是我的本地帐户用户名。当

json - Hadoop 中的 Twitter json 数据

我已经将Twitter数据流式传输到HDFS。这是我的Twitter代理配置:#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1Twitter-agent.sinks=sink1#configuringsourcesTwitter-agent.sources.source1.type=com.cloudera.flume.source.TwitterSourceTwitter-agent.sources.source1.channels=channel1Twitter

hadoop - Hadoop中的HBASE和HDFS有什么区别?

实际区别是什么,当需要存储数据时应该何时使用另一个? 最佳答案 请阅读此post一个很好的解释。但一般来说,HBASE运行在HDFS之上。HDFS是一个分布式文件系统,就像任何其他文件系统(Unix/Windows)一样,而HBASE就像一个数据库,它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。 关于hadoop-Hadoop中的HBASE和HDFS有什么区别?,我们在StackOverflow上找到一个类似的问题: https://

hadoop - Output.collect mapreduce 似乎没有取正确的值?

我是Hadoop的新手,两天来我一直在努力弄清楚为什么output.collect没有收集正确的值。我自己解释一下:事实上,(为了简化起见)我有以下映射方法:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{try{ForXmlHandlingmessage=(ForXmlHandling)unmarshaller.unmarshal(newStringReader(value.toString()));MyObjectrow=XmlParse

hadoop - Hadoop 中的内部存储

我是Hadoop新手,对它的内部存储有疑问。据我所知,HDFS中的所有内容都存储为键/值对。现在,在Yarn的帮助下,出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据,如流和数据。这些类型的数据如何存储在HDFS内部?例如,关系表的行是否以某种方式转换为键/值对?即使使用Hive和Hcatalog,您也可以创建表并向其中加载数据。所有这些都是如何在hadoop内部完成的?提前致谢 最佳答案 我认为数据不会作为键/值存储在HDFS上。它的存储方式与普通文件一样,以非结构化格式存储。但是,当您运行MapReduce作业

hadoop - 如何在 oozie 工作流任务之间传递数据

Oozie有一组丰富的指令来描述任务之间所需的控制流。它是否有任何有助于在这些任务之间传递数据的东西?还是传递数据是一项完全留给用户的练习?更新:我正在使用shell操作来调用spark,因此我需要一个足够通用的解决方案来涵盖该用例。 最佳答案 为了在Oozie工作流任务之间传递数据,您需要将工作流2的输入定义为工作流1的输出。例如:${jobTracker}${nameNode}mapred.input.dir${workflow1_Input}mapred.output.dir${workflow1_Output}${jobTr

java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)

我正在尝试在启用Kerberos身份验证的安全模式下设置单节点Hadoop集群,使用hadoop-2.4.0和jdk1.7.0_25.为此,我按照文档中的描述创建了key表文件。在调试具有属性HADOOP_OPTS的东西时设置为-Dsun.security.krb5.debug=true我看到以下错误消息:Foundunsupportedkeytype(8)fornn/hadoop-kerberos@HADOOP-KERBEROSAddedkey:23version:4Addedkey:16version:4Addedkey:17version:4Addedkey:18version:

java - Hadoop MapReduce 有条件地打印名称对

所以我想弄清楚这个MapReduce程序问题的逻辑,我不需要代码,只需要逻辑方面的帮助,因为我对MapReduce还是新手,我不太熟悉所有可能的解决方法一个问题。我尝试查找类似的程序,但没有成功。问题:给定一个名称列表(为简单起见,只考虑第一个字符)输入:A,BD,FP,EA,BA,CB,AE,P我需要使用MapReduce仅打印那些按字母顺序和相反顺序提到的对(按字母顺序)。所以输出将是:A,BE,P注意:打印的是E,P而不是P,E,因为它必须按字母顺序排列。有人能帮忙吗? 最佳答案 在Map-Reduce程序中,主要问题是:什么

hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中

场景:供应商将提供tar.gz格式的原始提要,其中包含制表符分隔格式的多个文件文件详细信息:a)OneHit等级数据b)多个查找文件c)(a)的一个头文件提要(tar.gz)将被摄取并登陆到BDP原始操作中。查询:希望将这些数据从操作原始区域加载到Pig中以进行数据质量检查过程。如何实现?文件应该提取到hadoop中供我们使用还是可用的替代方案?请指教。谢谢!注意:任何示例脚本都会更有帮助 最佳答案 引用:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

hadoop - 查找正在运行的作业优先级

如何找到在Hadoop中运行的作业使用的优先级?我尝试使用Hadoop命令,如hadoopjob、yarncontainer或mapredjob等,但找不到如何使用获得正在运行的作业优先级。 最佳答案 您可以使用getJobPriority()mapreduce代码中的方法。 关于hadoop-查找正在运行的作业优先级,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3144445