HIVE_草庐IT

mysql - 没有在 swing UI 中获取 Hive 数据库详细信息

我正在创建一个javaswingui，它将连接到Hive数据库和表，并为我提供有关UI本身的详细信息。我能够生成UI，但所有Hive数据库和表的详细信息都不会出现，“默认”数据库除外。但是在“默认”数据库中，我也无法获取其中的表。这里是获取Hive数据库的代码HiveConfhconf=newHiveConf();HiveMetaStoreClientmsClient=newHiveMetaStoreClient(hconf);Listdbs=msClient.getAllDatabases();System.out.println(AllDatabases:"+dbs);//AllD

mysql swing strong gt lt hadoop hive derby cloudera-cdh

hadoop - Lzo 文件不会在配置单元作业中拆分

我们在s3中有3个.lzo文件和相应的.index文件。我们正在这些文件的目录上创建一个外部表。每个lzo文件的大小为100MB+，每个文件的未压缩大小为800+MBblock大小为128MB。当我们运行配置单元查询时，不幸的是只有3个映射器被生成，这表明没有发生split，可能是什么问题？最佳答案 Splittable仅在压缩文件的大小大于拆分大小时适用。Hive默认拆分大小为256MB。在Hivesession中修改拆分大小并运行查询。setmapreduce.input.fileinputformat.split.minsi

配置单 hadoop section stackoverflow amazon-web-services amazon-s3 hive lzo

hadoop - hive外部表有什么意义？

第1步。我创建了一个配置单元外部表“test”，并给出了一些位置，例如“/user/hive2”。第2步。我在“测试”表中加载一个文件。第3步。我做了一个select*fromtest。我得到了我的记录。第四步，我通过droptabletest来droptable。第5步。我确实从测试中选择*，但未找到表。那么使用externaltable有什么意义呢？如果删除了“测试”表的元数据并且我无法在其上查询任何内容，那么我们为什么要使用外部表？最佳答案 @Nishant:在本论坛中提出一般性问题之前，您应该做一些功课。无论如何，这里有一

hadoop hive section 配置单 stackoverflow mapreduce

hadoop - 无法在 Hive 上对表进行分区 - 元数据错误

我在Hive中创建了一个表，其中加载了数据。我想根据Columnspec:DoJ对其进行分区，其中值为2012我用过:ALTERTABLEemployeeADDPARTITION(year='2012')location'/home/rvarun/2012/part2012';我收到错误:FAILED:Errorinmetadata:tableisnotpartitionedbutpartitionspecexists:{year=2012}FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTa

hadoop Hive section code 2012 partition

hadoop - 在 Pig 中按两列聚合数据分组

我有这些数据，需要按两列分组，然后对其他两个字段求和。假设这四列的名称是:OS,device,view,click。我基本上想知道每个操作系统和设备的计数，它们有多少次查看以及有多少次点击。(2,3346,1,)(3,3953,1,1)(25,4840,1,1)(2,94840,1,1)(14,0526,1,1)(37,4864,1,)(2,7353,1,)这是我目前的情况Aisdata:OS,device,view,clickB=GROUPABY(OS,device);Result=FOREACHB{GENERATEgroupASOS,device,SUM(view)ASvisits

hadoop Pig device section click hive apache-pig

hadoop - MapReduce 现实生活中的用途

我怀疑在哪些情况下，选择MapReduce而不是hive或pig。我知道是什么时候用的我们需要对输入数据进行深度过滤。处理非结构化数据。使用图表。....但是有什么地方我们不能使用hive、pig或者我们可以使用MapReduce更好地工作并且它在实际项目中被广泛使用最佳答案 Hive和Pig是通用解决方案，它们在处理数据时会产生开销。大多数情况下它可以忽略不计，但在某些情况下它可能相当大。如果需要join的表很多，使用Hive和Pig尽量采用通用的方案，如果在了解数据后使用mapreduce，可以想出更优的方案。然而，mapre

MapReduce 用途 section 结构化 hadoop hive apache-pig

oracle - 不使用 Scoop 将 Oracle 数据存储到 hadoop 层

我尝试使用以下脚本将oracle输出保存到hadoop空间中的文本文件中。#!/bin/bashDBUSER='scott'DBUSERPASSWORD='tiger'DB='oracle'sqlplus-s脚本是从Hive命令提示符调用的，有没有办法将上述查询的输出作为文件保存在hive目录中，我知道我的oracle服务器不同，需要更改编码。但是我不想使用sqoop，而是想将输出文件保存到hadoop中最佳答案当您可以使用JDBC连接将Oracle数据直接“抽取”到Hive表中时，为什么要使用命令行实用程序(顺便说一下，一个需

oracle section Hive-JDBC-Storage-Handler hadoop hive sqoop

大数据技术之Hive（三）hive常用函数

hive有大量内置函数，大致可分为：单行函数、聚合函数、炸裂函数、窗口函数。查看内置函数showfunctions;查看内置函数用法descfunctionupper;查看内置函数详细信息descfunctionextendedupper;一、单行函数单行函数的特点是一进一出，输入一行，输出一行。1.1算数运算函数运算符描述A+BA-BA*BA/BA%B取余A&B按位取与A|B按位取或A^B按位取异或~A按位取饭1.2数值函数round：（可指定精度）四舍五入selectround(3.1415,2);//3.14ceil/ceiling：向上取整selectceil(3.1415,2);//

函数常用 style section span hive

datetime - 在 Hive 中转换日期格式

我已经在hdfs中下载了twitter数据，并成功地在上面创建了hive表。Twitter在json文件中给出了日期格式'ThuDec1006:21:00+00002015'我想将这种格式转换为'yyy-MM-dd'我已经尝试过hive提供的内置函数但它们不是接受推特提供的格式。谁能帮我转换这种格式。最佳答案也许UDF有点矫枉过正，您想要的只是快速修复，例如对这种丑陋格式进行一些RegExp处理(注意:你的工作是针对各种Twitter日期对其进行彻底测试，并相应地调整处理方式)selectTWITTER_VOMIT,regexp

datetime Hive 39 TWITTER_VOMIT then hadoop twitter

hadoop - 将 hdfs 文件复制到 hive 表后复制的文件总数

假设如果我将hdfs中的文件加载到配置单元表中，那么该文件的总副本数是多少。在hdfs中，文件被复制了3次，现在复制到hive表会产生额外的副本，总计是否有6个副本？？最佳答案在HDFS中，副本数基于复制因子集。在您的情况下，由于复制因子为3，因此将有三个副本。当您执行sqoop从hdfs导入到hive(到内部表)时，数据仅从hdfs上的一个位置复制到hive中的表。但是Hive数据的复制再次根据您的复制因子进行。总共你将得到3(hdfs)+1(hivecopy)*3=>HDFS上的3个副本和hive存储的数据的3个副本(这不是

hadoop hdfs strong section 配置单 hive replication