HIVE

mysql - Hive 使用子查询填充表

我正在处理Hadoop数据库，使用Hive作为首选接口(interface)。我希望能够将多个SELECT语句组合成一个查询(有点像UNION，但每个查询填充不同的列)。下面的查询将在一个列中返回我需要的所有结果，但我希望能够使用每个查询来填充单独的列。任何关于如何实现这一点的帮助都将是非常棒的——某种与VALUES等效的Hive可能会做到这一点。干杯。INSERTOVERWRITETABLEtstr_tmpSELECT*FROM(SELECTtime_stampFROMhttpWHEREext_hostname='exotichorse'ANDdt='01/07/2015'ANDex

mysql Hive 39 ext_url SELECT sql hadoop

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后，我需要编写一个查询，返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

hadoop GROUP count section code hive hiveql

java - 使用 hadoop 进行数据分析

我有一个关于在我的一个项目中实现hadoop的问题。基本上要求是，我们每天都会收到大量日志，其中包含有关视频的信息(播放时间、停止时间、哪个用户播放等)。我们要做的是分析这些文件并返回统计数据以响应HTTP请求。请求示例:http://somesite/requestData?startDate=someDate&endDate=anotherDate.基本上，此请求要求计算在一个日期范围内播放的所有视频的数量。我的问题是我们可以使用hadoop来解决这个问题吗？我读过各种文章，hadoop不是实时的。那么要处理这种情况，我应该将hadoop与MySQL结合使用吗？我想做的是在mysq

hadoop java section strong mysql hive analytics

sql-server - 当表处于不同模式时，如何从 SQL Server 导入所有带有 sqoop 的表？

当我尝试使用sqoop从配置单元中的SQLServer导入所有表时，它有效，但仅当表处于默认架构(dbo)时。当表处于不同模式(并且存在多个模式)时，导入失败并出现错误:15/09/1216:47:50ERRORmanager.SqlManager:Errorexecutingstatement:com.microsoft.sqlserver.jdbc.SQLServerException:Invalidobjectname'Carveout'.com.microsoft.sqlserver.jdbc.SQLServerException:Invalidobjectname'Carve

sql-server 处于 java apache sqoop hadoop hive

hadoop - Tableau、Hadoop 和 Birt

我试图将数据从SQL数据库迁移到Hadoop。我已经通过配置Hive、HBase和Hadoop成功地做到了这一点。我的问题是，我将Birt&Tableau与我的SQL数据库一起使用，并且能够在5-10分钟内加载1000万条数据，但我新配置的Hadoop、Hive和HBase系统需要大约50分钟才能获取1000万条条目.我怎样才能提高这种性能？Hadoop是专门为海量数据处理而开发的，为什么我做不到？性能有什么特殊配置吗？最佳答案经过大量研究并为了回答这个问题，我也通过了HDP。然后我遇到一个场景，我们无法比较SQLDb和Hado

Tableau hadoop section SQL hive hbase birt tableau-api

java - 使用 Spark Dataframe 的 Hive 分区中缺少日期前导零

我正在向SparkDataframe添加一个分区列。新列包含年月日。我的数据框中有一个时间戳列。DataFramedfPartition=df.withColumn("year",df.col("date").substr(0,4));dfPartition=dfPartition.withColumn("month",dfPartition.col("date").substr(6,2));dfPartition=dfPartition.withColumn("day",dfPartition.col("date").substr(9,2));当我输出数据帧时，我可以看到列的正确值，

Dataframe Spark dfPartition code section java hadoop apache-spark hive apache-spark-sql

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据，并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大，在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

时出 hadoop section code hive orc tez

image - 如何从 Hive 表中存储和检索图像

我想将图像存储在配置单元表中，然后检索图像以将其显示在仪表板上。我可以在不使用任何Java编码的情况下完成吗？我已成功创建配置单元表并将图像文件加载到具有二进制数据类型的列中，但HDFS中的图像文件是这样的��JFIF��Exif��MM�*��>��F(��i��N��z��`��UNICODE��C�R�E�A�T�O�R�:��g�d�-�j�p�e�g��v�1�.�0��(�u�s�i�n�g��I�J�G��J�P�E�G��v�6�2�)�,��q�u�a

image Hive section 仪表板配置单 hadoop

hadoop - 粘性位设置 hive 执行失败拒绝权限

当我试图在形成桶表的过程中触发一个sql命令时我收到以下错误，我明白因为正在执行的进程是配置单元但/tmp归mapred所有，所以它导致了问题。但我不知道如何解决我应该在哪里更改的问题。请帮助我的人Permissiondeniedbystickybitsetting:user=ras,inode=bucked_sampleFailedwithexceptionUnabletomovesourcehdfs://roax:8020/tmp/hive-training/hive_2016-02-16_03-29-10_837_2599907748984819467-1/-ext-10000t

hadoop hive section bucked_sample cloudera cloudera-cdh

javascript - Hive - Thrift - readMessageBegin 中缺少版本，旧客户端？

你好，我正在尝试构建一个nodejs客户端来使用thrift查询我的hive数据库，但我遇到了一个奇怪的问题......我已经用thrift生成了我的nodejs客户端API(thrift-r--genjs:nodeTCLIService.thriftTCLIService是定义Hive服务的节俭文件)现在我尝试连接到Hive但我的OpenSession正在等待中......也许我没有做正确的调用但我不在网上找不到任何最新的东西(每个thrift/node/hive项目都有4或5年的历史)。你能看看我做错了吗？谢谢TCLIService.thrift://OpenSession()//

readMessageBegin javascript sessionHandle thrift console node.js hadoop hive

59 60 616263 64 65