HiveQL

java - Hive 自动递增

我想在Hive中创建一个auto_increment列。我在hive文档上没有看到任何关于此的内容，但我发现我们可以使用:UDFRowSequence来做到这一点。是否有最新的方法来做到这一点，或者是否有新的方法，最“简单”？我已经尝试过了:所以在我的Java项目中，我创建了这样的函数:privatestaticvoidcreateAutoIncrFunction()throwsSQLException{Statementstmt=conn.createStatement();Stringsql="createfunctionautoincras\"org.apache.hadoop.

mysql - 返回每个用户具有的不同值的 Hive 查询

我有一个mysql表-UserValueA1A12A3B4B3B1C1C1C8D34D1E1F1G56G1H1H3C3F3E3G3我需要运行一个查询，返回每个用户拥有的第二个不同值。意味着如果每个用户访问任何2个值，则根据出现情况，选择第二个不同的值。Soasabove1&3isbeingaccessedbyeachUser.Occurrenceof1ismorethan3,so2nddistinctwillbe3所以我首先想到我会得到所有不同的用户。createtabletempASSelectdistinctuserfromtable;然后我会有一个外部查询-Selectvalue

mysql Hive section value users hadoop hiveql

regex - Hive - 过滤不同的名称

我因过滤某些电影标题而陷入困境。我的问题是我有很多不同的电影标题，例如:Movies:Visitors:BreakingDawnPart1+2100BreakingDawn1+240BreakingDawn1+230DarkKnighttrilogy3D100DarkKnighttrilogy3D40DarkKnightTrilogyHDF30DarkKnightTrilogy-HDF100DarkKnighttrilogy_(blank)44etc.+10000所以有很多不同的电影标题，它们的名字并不唯一，并且在结尾处也有一些空格。我可以稍微解决这个问题，但是已经有很多标题，它们具有

regex Hive moviename section 3D hadoop filtering hiveql

hadoop - Hive:GROUP By 上的子查询

需要Hive查询的帮助。我写了一个Hive查询:selectto_date(from_unixtime(epoch))asdate,count1,count2,count3fromtable1wherecount3=168这给我的结果如下:datecount1count2count37-15-2015168377-15-2015168157-15-201516843andsimilarlyforotherdates....最后，我需要编写一个查询，返回每个日期的count2和count3的中值。例如:我需要输出为:datecount1count2count37-15-201516835

hadoop GROUP count section code hive hiveql

hadoop - VARCHAR(254) 与 VARCHAR(255)

我读过这个question关于MySQL中VARCHAR(254)和VARCHAR(255)的区别。HiveQL中是否有必须考虑的类似内容？也许HiveQL实现了一些类似于MySQL的存储引擎，在设计表时应牢记这一点。最佳答案 Hive不像mysql那样在列长度上有悬崖。相反，考虑因素是关于压缩和列存储与行存储。这是一个关于其中一些压缩和存储选项的引用。http://www.adaltas.com/blog/2012/03/13/hdfs-hive-storage-format-compression/您可以考虑文本、序列、RC/

VARCHAR hadoop section stackoverflow hive hiveql

hadoop - Spark SQL 不返回 HDP 上 HIVE 事务表的记录

我在HDP设置上遇到了这个问题，事务表只需要一次压缩就可以使用SparkSQL获取记录。另一方面，Apache设置甚至不需要压缩一次。可能是压缩后在元存储上触发了某些东西，SparkSQL开始识别增量文件。如果需要其他详细信息来找出根本原因，请告诉我。试试这个，查看完整场景:hive>createtabledefault.foo(idint)clusteredby(id)into2bucketsSTOREDASORCTBLPROPERTIES('transactional'='true');hive>insertintodefault.foovalues(10);scala>sqlCo

hadoop Spark section default foo apache-spark hive apache-spark-sql hiveql

hadoop - 使用 HIVE 添加列

我有以下数据表。IDsalaryoccupation15000Engineer26000Doctor38000Pilot41000Army13000Engineer24000Teacher32000Engineer11000Teacher31000Engineer15000Doctor现在我想向该表添加另一个列标志，使其看起来如下所示。IDsalaryoccupationFlag15000Engineer026000Doctor038000Pilot041000Army013000Engineer124000Teacher132000Engineer111000Teacher23100

hadoop HIVE Engineer section code apache-spark hiveql

hadoop - 使用cloudera quickstart vm 在配置单元中创建表被卡住了

我正在尝试使用clouderaquickstartvm的配置单元CLI在配置单元中创建一个表。该命令被卡住，甚至在很长一段时间后也没有发生任何事情。我错过了什么吗？如果有人可以为此提供帮助，我们将不胜感激。[cloudera@quickstart~]$配置单元使用jar:file:/usr/jars/hive-common-1.1.0-cdh5.5.0.jar!/hive-log4j.properties中的配置初始化日志记录警告:HiveCLI已弃用，建议迁移到Beeline。hive>创建表test_dept(department_idint，department_namestri

中创配置单 section hadoop hive sqoop hiveql cloudera-quickstart-vm

hadoop - 如何优化我的配置单元查询以从多个表中查找记录计数总和

我必须生成一份报告，该报告将为我提供表A、B和C中使用Hive存储的事件的计数总和，并且我的S3存储桶已按Organization_id分区例如:表A–有约翰(和其他员工)每天上类的记录表B–记录了约翰(和其他员工)在工作中调用或接听的每个电话表C–记录了约翰(和其他员工)在工作中提交的每笔费用基本上，我想要约翰(employee_id)在上个月来自A、B和C的计数总和。如果在3个表A、B或C中的任何一个中都有记录，则应该每个日期只有一个记录(如果一个或多个表中有一个日期的记录，则对计数求和)表)。所以我的输出是:EmployeeidEmployeeNameDateCount123Jo

配置单 hadoop employee employee_id employee_name amazon-s3 hiveql qubole

scala - 如何使用 spark 在 Hive 中正确加载数据？

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

scala spark 34 code unknown hadoop apache-spark hive hiveql

4 5 678 9 10