草庐IT

test_hive

全部标签

arrays - 我需要帮助使用 HIVE 查询从 JSON 检索子数组

我有以下JSON。{"_id":"00075602-f58d-49f5-8a82-9b5fb5582443","ActivityCountedCollection":[{"Lesson":"98d66ab9-1ef4-4b61-a05d-857b3e07e0f8","DataSet":1,"DateTime":"2013-06-19T15:54:27.79+00:00","ElapsedSeconds":0.0000},{"Lesson":"Kindergarten-Play&Practice","DataSet":0,"DateTime":"2014-01-01T00:00:00",

mysql - Hive 使用子查询填充表

我正在处理Hadoop数据库,使用Hive作为首选接口(interface)。我希望能够将多个SELECT语句组合成一个查询(有点像UNION,但每个查询填充不同的列)。下面的查询将在一个列中返回我需要的所有结果,但我希望能够使用每个查询来填充单独的列。任何关于如何实现这一点的帮助都将是非常棒的——某种与VALUES等效的Hive可能会做到这一点。干杯。INSERTOVERWRITETABLEtstr_tmpSELECT*FROM(SELECTtime_stampFROMhttpWHEREext_hostname='exotichorse'ANDdt='01/07/2015'ANDex

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后,我需要编写一个查询,返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

java - 使用 Spark Dataframe 的 Hive 分区中缺少日期前导零

我正在向SparkDataframe添加一个分区列。新列包含年月日。我的数据框中有一个时间戳列。DataFramedfPartition=df.withColumn("year",df.col("date").substr(0,4));dfPartition=dfPartition.withColumn("month",dfPartition.col("date").substr(6,2));dfPartition=dfPartition.withColumn("day",dfPartition.col("date").substr(9,2));当我输出数据帧时,我可以看到列的正确值,

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据,并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大,在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

image - 如何从 Hive 表中存储和检索图像

我想将图像存储在配置单元表中,然后检索图像以将其显示在仪表板上。我可以在不使用任何Java编码的情况下完成吗?我已成功创建配置单元表并将图像文件加载到具有二进制数据类型的列中,但HDFS中的图像文件是这样的�����JFIF���������Exif��MM�*�����������>�������F(��������i�������N�����������������������z���`����UNICODE��C�R�E�A�T�O�R�:��g�d�-�j�p�e�g��v�1�.�0��(�u�s�i�n�g��I�J�G��J�P�E�G��v�6�2�)�,��q�u�a

hadoop - 粘性位设置 hive 执行失败拒绝权限

当我试图在形成桶表的过程中触发一个sql命令时我收到以下错误,我明白因为正在执行的进程是配置单元但/tmp归mapred所有,所以它导致了问题。但我不知道如何解决我应该在哪里更改的问题。请帮助我的人Permissiondeniedbystickybitsetting:user=ras,inode=bucked_sampleFailedwithexceptionUnabletomovesourcehdfs://roax:8020/tmp/hive-training/hive_2016-02-16_03-29-10_837_2599907748984819467-1/-ext-10000t

javascript - Hive - Thrift - readMessageBegin 中缺少版本,旧客户端?

你好,我正在尝试构建一个nodejs客户端来使用thrift查询我的hive数据库,但我遇到了一个奇怪的问题......我已经用thrift生成了我的nodejs客户端API(thrift-r--genjs:nodeTCLIService.thriftTCLIService是定义Hive服务的节俭文件)现在我尝试连接到Hive但我的OpenSession正在等待中......也许我没有做正确的调用但我不在网上找不到任何最新的东西(每个thrift/node/hive项目都有4或5年的历史)。你能看看我做错了吗?谢谢TCLIService.thrift://OpenSession()//

hadoop - ALTER TABLE (Hive) 中的动态数据

我的查询出现错误,我不完全确定原因:ALTERTABLErevenueADDPARTITION(ds=from_unixtime(unix_timestamp(),'yyyy-MM-dd'))LOCATIONCONCAT('s3://userenroll-analytics/prod/revenue/avro/',from_unixtime(unix_timestamp(),'yyyy/MM/dd'))错误:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:38cannotrecognizeinputnear'from_un

sql - 使用 between operator 的 Hive 不等式连接

我们有一个类似于下面的查询:(partition_date是我们的表分区)SELECT*FROMAJOINBwherepartition_date>B.last_runtime;我们意识到通过将条件放在where子句中会导致全表扫描,因此我们需要将其作为ON放在JOIN中。问题是Hive不支持不等式连接,所以考虑使用如下所示的BETWEEN运算符:Select*fromAJOINBONpar_datebetweenB.last_runtimeand'99999999';thisisgivingustheerror:Bothleftandrightaliasesencounteredin