test_hive

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档，了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成，配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

scala - 如何使用 spark 在 Hive 中正确加载数据？

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

scala spark 34 code unknown hadoop apache-spark hive hiveql

hadoop - 过滤 hive 复杂数据类型

我使用配置单元创建了一个表我想过滤数据createtablestudent(idbigint,namestring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','STOREDASTEXTFILE;和类似的数据100student1java,.net,hadoop101student2.net,hadoop102student3java,hadoop103student4.net,hadoop104student5java,.net105student6java,.net

hadoop hive student 34 hiveql

hadoop - 分区 hive 数据复杂数据类型，同时插入数据它显示错误

我使用hive创建了一个表，我想根据位置对数据进行分区createtablestudent(idbigint,namestring,locationstring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','storedastextfile;和类似的数据100student1ongolejava,.net,hadoop101student2hyderabad.net,hadoop102student3vizagjava,hadoop103student4ongole.n

hadoop hive student code section hiveql

hadoop - Hive 加入 2 个表，一个有分区，另一个没有

我必须对表格假设表格一是X，表格二是Z。表Z有一个分区谓词。表X是一个国家/地区表，具有以下字段country_id,country_name表Z包含一些数据，我想将该表的country_id映射到表X。我试过了selectc.country_id,c.country_name,s.sales_id,s.sales_ctry_idfromx_tablecjoinz_tableson(c.country_id=s.sales_ctry_id)但是因为表Z是按日期字段分区的，所以我无法让这个连接工作。有什么建议吗？最佳答案您应该使用

hadoop Hive code section country join hiveql

hadoop - 为子分区创建 Hive 表

我有一个带日期分区的配置单元表。这些日期从2017年1月1日开始。HDFS位置是按日期分区的。我如何创建一个仅考虑来自上述HDFS位置的5个日期的Hive表？最佳答案 createtablenewtableasselectcolumn1,column2,column3fromoldtablewhereDateStamp>='2017-01-01'andDateStamp 关于hadoop-为子分区创建Hive表，我们在StackOverflow上找到一个类似的问题：

hadoop Hive section column stackoverflow hdfs

hadoop - 通过 spark job 创建 hive 表

我正在尝试在hadoop集群(BigInsight4.1发行版)上创建hive表作为我的spark(1.5.1版)作业的输出，但我面临权限问题。我的猜测是spark使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表，因此未能这样做。我尝试自定义hive-site.xml文件以设置一个经过身份验证的用户，该用户有权创建配置单元表，但这没有用。我还尝试将Hadoop用户变量设置为经过身份验证的用户，但它也没有用。我想避免保存txt文件然后创建配置单元表以优化性能并通过orc压缩减小输出的大小。我的问题是:有什么方法可以调用sparkdataframeapi的write函

hadoop spark section code 配置单 apache-spark hive hivecontext

hadoop - 将数据从 HDFS 加载到 Hive 时出现问题

场景1:在配置单元中创建表时提供自定义位置，然后使用“从本地复制”命令加载数据。下面的过程是直接将数据加载到我的表中。但是当我使用默认位置使用“从本地复制”命令加载数据时，方案2不起作用。因为它执行时没有任何错误，但没有加载我的表。场景1命令的链接---Scenario1Commands--这是将数据加载到表中。Scenario2Commands--将场景1的位置路径替换为默认配置单元路径--但未加载数据。最佳答案使用下面的命令找到文件需要复制到的确切位置hive-e'describeformattedEmployee'如果

时出 hadoop section code 中创 hive hiveql

hadoop - 如何列出 Hive 中所有数据库中所有表中的所有列

我需要列出我的Hive中所有数据库的所有表中的所有列。我需要这样一行:Database.table.columncolumn_typecomment显然我可以使用showdatabases;对于我可以使用的每个数据库showtables;并且对于每个表使用:describetable_name;显然，我可以使用位于我的Postgress数据库中某处的Hive_metastore数据库，但我无法访问那里。但我想要一个bash脚本，它可以遍历数据库->表->列并获取详细信息。我已经开始生成数据库列表:hive-e'showdatabases;'|teedatabases.txt比起我要遍历

hadoop Hive code section pre

hadoop - HIVe - 创建表为 - 从现有表创建 Parquet 表时出错

我使用CTAS从现有表(订单)创建了一个Parquet表(orders_parquet)，如下所示:CREATETABLEorders_parquetROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetO

时出 Parquet java FileHandler FileOutputStream hadoop hive

96 97 9899100 101 102