Hadoop_草庐IT

sql-server - 如何将特定模式的数据从 SQL Server 2014 (Unicode) 导入 Hive 仓库

我想从SQLServer导入数据并从hive查询它。我使用cloudera模板创建了一个VirtualBox，并开始阅读它的教程。我成功地能够使用sqoop作为avro文件从SQLServer导入数据，然后在配置单元中创建表并从avro文件导入数据。然后从hive查询。但是sqoop的import-all-tables命令只导入模式“dbo”的表。如果我还想导入具有架构dw的表怎么办？我尝试使用import命令导入dw模式中存在的特定表。但这也行不通。知道如何使用sqoop从SQLServer为非dbo.架构相关表导入数据作为avro吗？或者从SQLServer导入数据而不是dbo.模

hadoop - Hadoop中的HBASE和HDFS有什么区别？

实际区别是什么，当需要存储数据时应该何时使用另一个？最佳答案请阅读此post一个很好的解释。但一般来说，HBASE运行在HDFS之上。HDFS是一个分布式文件系统，就像任何其他文件系统(Unix/Windows)一样，而HBASE就像一个数据库，它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。关于hadoop-Hadoop中的HBASE和HDFS有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

hadoop section stackoverflow HBASE

hadoop - Output.collect mapreduce 似乎没有取正确的值？

我是Hadoop的新手，两天来我一直在努力弄清楚为什么output.collect没有收集正确的值。我自己解释一下:事实上，(为了简化起见)我有以下映射方法:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{try{ForXmlHandlingmessage=(ForXmlHandling)unmarshaller.unmarshal(newStringReader(value.toString()));MyObjectrow=XmlParse

mapreduce collect section MyObject hadoop

hadoop - Hadoop 中的内部存储

我是Hadoop新手，对它的内部存储有疑问。据我所知，HDFS中的所有内容都存储为键/值对。现在，在Yarn的帮助下，出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据，如流和数据。这些类型的数据如何存储在HDFS内部？例如，关系表的行是否以某种方式转换为键/值对？即使使用Hive和Hcatalog，您也可以创建表并向其中加载数据。所有这些都是如何在hadoop内部完成的？提前致谢最佳答案我认为数据不会作为键/值存储在HDFS上。它的存储方式与普通文件一样，以非结构化格式存储。但是，当您运行MapReduce作业

hadoop section 的如流 relational-database hdfs sqoop

hadoop - 如何在 oozie 工作流任务之间传递数据

Oozie有一组丰富的指令来描述任务之间所需的控制流。它是否有任何有助于在这些任务之间传递数据的东西？还是传递数据是一项完全留给用户的练习？更新:我正在使用shell操作来调用spark，因此我需要一个足够通用的解决方案来涵盖该用例。最佳答案为了在Oozie工作流任务之间传递数据，您需要将工作流2的输入定义为工作流1的输出。例如:${jobTracker}${nameNode}mapred.input.dir${workflow1_Input}mapred.output.dir${workflow1_Output}${jobTr

何在传递 lt gt workflow hadoop pipeline oozie oozie-coordinator

scala - Spark : how to include dependencies with build/sbt compile

我是spark的新手，但正在尝试进行一些开发。我正在遵循thesparkdeveloperpage中的“减少构建时间”说明.创建正常程序集后，我编写了一些依赖于一个特定jar的类。我在spark-shell中测试了我的包，通过定义SPARK_CLASSPATH，我已经能够在其中包含我的jar，但问题在于实际编译我的代码。我想要实现的是在编译我添加的包时包含那个jar(使用build/sbtcompile)。我可以通过在build/sbt文件或sbt-launch-lib.bash中添加我的jar路径来做到这一点吗？如果可以的话，怎么做？(旁注:我还不想将jar包含在程序集中，因为我对它

dependencies compile section code jar scala hadoop apache-spark

java - 发现 nn/hadoop-kerberos@HADOOP-KERBEROS 不支持的 key 类型 (8)

我正在尝试在启用Kerberos身份验证的安全模式下设置单节点Hadoop集群，使用hadoop-2.4.0和jdk1.7.0_25.为此，我按照文档中的描述创建了key表文件。在调试具有属性HADOOP_OPTS的东西时设置为-Dsun.security.krb5.debug=true我看到以下错误消息:Foundunsupportedkeytype(8)fornn/hadoop-kerberos@HADOOP-KERBEROSAddedkey:23version:4Addedkey:16version:4Addedkey:17version:4Addedkey:18version:

不支 hadoop-kerberos code default default_tkt_enctypes java authentication hadoop kerberos

java - 错误 : java. lang.IllegalArgumentException:即使使用变通方法，比较方法也违反了其一般约定

我已经花了两天时间来解决这个错误，即使我尝试了几个stackoverflow帖子“-Djava.util.Arrays.useLegacyMergeSort=true”中建议的解决方法，但它也不起作用。这是我的命令及其返回错误的详细信息:命令:hadoopjarCloudBrush.jar-Djava.awt.headless=true-Djava.util.Arrays.useLegacyMergeSort=true-reads/Ec10k-asmEc10k_Brush-k21-readlen36错误:Error:java.lang.IllegalArgumentException:

IllegalArgumentException 变通 java code at hadoop hadoop-yarn cloudera-cdh

java - Hadoop MapReduce 有条件地打印名称对

所以我想弄清楚这个MapReduce程序问题的逻辑，我不需要代码，只需要逻辑方面的帮助，因为我对MapReduce还是新手，我不太熟悉所有可能的解决方法一个问题。我尝试查找类似的程序，但没有成功。问题:给定一个名称列表(为简单起见，只考虑第一个字符)输入:A,BD,FP,EA,BA,CB,AE,P我需要使用MapReduce仅打印那些按字母顺序和相反顺序提到的对(按字母顺序)。所以输出将是:A,BE,P注意:打印的是E,P而不是P,E，因为它必须按字母顺序排列。有人能帮忙吗？最佳答案在Map-Reduce程序中，主要问题是:什么

MapReduce Hadoop code section java

hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中

场景:供应商将提供tar.gz格式的原始提要，其中包含制表符分隔格式的多个文件文件详细信息:a)OneHit等级数据b)多个查找文件c)(a)的一个头文件提要(tar.gz)将被摄取并登陆到BDP原始操作中。查询:希望将这些数据从操作原始区域加载到Pig中以进行数据质量检查过程。如何实现？文件应该提取到hadoop中供我们使用还是可用的替代方案？请指教。谢谢!注意:任何示例脚本都会更有帮助最佳答案引用:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

hadoop Pig section strong load-store-functions compression apache-pig