HIVE_草庐IT

hadoop - 如何为配置单元中的所有加载数据启用 snappy 压缩？

我的Hive仓库中有大约TB的数据，我正在尝试为它们启用snappy压缩。我知道我们可以使用启用配置单元压缩hive>SEThive.exec.compress.output=true;hive>SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;在将数据加载到hive中时，如何压缩已加载的数据。最佳答案 HiveORCFile支持压缩存储。要将现有数据转换为ORCFile，请创建一个与源表具有相同架构并存储为orc的新表，见下文

hadoop - PIG UDF 中的表架构

在将数据加载到Hive表之前，我必须在平面文件中格式化数据。CF32|4711|00010101Z|+34.883|98562AS1D|N8594ãä|00|2该文件是管道分隔的，我需要在平面文件的不同列上应用不同的清理和格式化功能。我有Clean_Text、Format_Date、Format_TimeStamp、Format_Integer等多个函数。我的想法是将架构作为构造函数传递给我的UDF，并在pig中调用平面文件上的不同函数。A=LOAD'call_detail_records'USINGorg.apache.hcatalog.pig.HCatLoader();DESCRI

c# - 如何在查询中将 .net DateTime.Ticks 转换为 Hive DateTime？

我的日志文件在DateTime.Ticks(635677577653488758)中有一个列，我正在尝试将其转换为HadoopHive中的日期。首先，我在MySql上尝试了下面的代码块，它成功了。但是相同的代码在Hive中不起作用，因为date_add函数适用于INT。SELECTDATE_ADD('2001-01-0100:00:00',INTERVAL(MAX(f.date)-631139040000000000)/10MICROSECOND);然后我会这样格式化...SELECTDATE_FORMAT(MyDateFromTicks,'%Y-%m-%dT%T.%fZ');我怎样才

hadoop - 使用 EsStorageHandler 在 Hive 中创建外部表时出错

我在创建外部表以将数据从Hive推送到ElasticSearch时遇到错误。到目前为止我做了什么:1)ElasticSearch-1.4.4设置成功并运行。2)Hadoop1.2.1搭建成功，所有守护进程都启动并运行。3)成功设置Hive-0.10.0。4)在Hadoop/lib和Hive/lib中配置elasticsearch-hadoop-1.2.0.jar。p>5)在Hive中成功创建了几个内部表。执行以下命令时出现错误:CREATEEXTERNALTABLEdrivers_external(idBIGINT,firstnameSTRING,lastnameSTRING,vehi

hadoop - 如何在 "insert"脚本中设置输出文件的数量或大小？

我在配置单元中有一个分区表“t1”，其中包含许多不同大小的数据文件(总计:900Mb)。我想减少文件数量，以便将更少的文件放入另一个表“t2”。表“t1”和“t2”是这样创建的:Sethive.exec.compress.output=true;Setmapred.output.compression.codec=snappy;SETmapred.output.compression.type=BLOCK;usexxx;CREATEEXTERNALTABLEtXpartitionedby(astring,bstring,cstring)ROWFORMATSERDE'org.apache

mysql - GROUP BY 和加入 HIVE

我怎样才能在HIVE中做这样的事情:表1:IDNameFriends1Tom5表2:IDNameDOB1Jerry10/10/19991KateNull1Peter02/11/19831RobertNull1Mitchell09/09/2000我想做的是:对于表1中的每个ID，找出num个不为空的DOB，然后除以Friends我写了一个查询:SELECTt.ID,t.Friends,COUNT(s.DOB)/t.FriendsfromTable1tjoinTable2son(t.ID=s.ID)GROUPBYt.ID当我这样做时，我收到错误消息，因为FRIENDS不是GROUPBYKe

php hiveserver 2 问题

我想从php客户端连接到hiveserver2。但是，我得到一个空白页(我应该在配置单元中看到一个表列表)。我改编了代码https://github.com/garamon/php-thrift-hive-client.最初，我收到此错误TSocket:从主机读取4个字节时超时。按照此处的建议实现补丁后https://stackoverflow.com/a/19199938/4379550.错误消失了，但我什么也没得到。我的代码如下setSendTimeout(600*100);$transport->setRecvTimeout(600*100);$client=newThriftH

sorting - Hive 分配方式与不分配方式

这听起来很基础，但这个问题困扰了我一段时间。假设我有以下查询SELECTs.ymd,s.symbol,s.price_closeFROMstockssSORTBYs.symbolASC;在这种情况下，如果数据在符号列上分布良好，那么基于符号列进行分布是有意义的，这样所有reducer都能很好地共享数据；将查询更改为以下内容会提供更好的性能SELECTs.ymd,s.symbol,s.price_closeFROMstockssDISTRIBUTEBYs.symbolSORTBYs.symbolASC,s.ymdASC;如果我不指定distributeby子句会有什么影响？在第一个查询中

bash - 从 Apache Hive 运行 bash 别名

我正在尝试在Hadoop机器上创建一个别名并从HiveJVM运行它。当我使用!显式地从Hive运行命令时前缀它有效，但是当我添加别名、获取.bashrc文件并从Hive调用别名时，出现错误。示例:.bashrc内容:#EnvironmentvariablesrequiredbyhadoopexportJAVA_HOME=/usr/lib/jvm/java-7-oracleexportHADOOP_HOME_WARN_SUPPRESS=trueexportHADOOP_HOME=/home/hadoopexportPATH=$PATH:/home/hadoop/binaliasload-

hadoop - 执行 Hive 查询时获取权限被拒绝错误

在连接到直线时执行selectcount(*)fromtablename查询时出现以下错误。ERROR:JobSubmissionfailedwithexception'org.apache.hadoop.security.AccessControlException(Permissiondeniedatorg.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkOwner(FSPermissionChecker.java:201)我可以执行showtables；成功但每当我执行查询时都会收到此错误。我以有权访问had