test_hive_草庐IT

java - Hive UDF 将 array<string> 作为参数传递

我正在尝试通过collect_set将数组传递给HiveUDF:SELECT...,collect_set(...)FROM...;我的HiveUDF想要接受这个数组并将每个数组元素的第一个字母附加到输出字符串:publicclassMyUDFextendsUDF{publicStringevaluate(String[]array){Stringoutput="";//Checkforvalidargumentif(array==null)returnoutput;try{//Addfirstcharacterofeveryarrayelementtooutputstringfor(

amp 传递 code section array java arrays hadoop hive user-defined-functions

json - Twitter Json 数据未在 Hive 中查询

我尝试使用Flume、Hadoop和Hive进行Twitter情绪分析。我正在关注这个article.通过使用Flume，我能够成功地将推文发送到HDFS。这是我的Twitter代理配置。#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1Twitter-agent.sinks=sink1#configuringsourcesTwitter-agent.sources.source1.type=com.cloudera.flume.source.TwitterSourc

Twitter json 34 Twitter-agent hadoop hive

hadoop - Hive Oozie 错误处理

有没有人对Oozie异常/错误处理的最佳实践有什么建议？我们在Oozie工作流中有HiveActions，发现错误没有足够详细地记录。我们需要更多的堆栈跟踪和每个失败的更多上下文。有什么建议吗？提前致谢...喜满树最佳答案一旦oozie作业提交，Yarn将负责完成mapreduce的操作。作业提交到yarn后，检查mapredhistoryserver中的日志，或者通过oozie中的作业日志以及webUI中的错误代码列表进行检查。关于hadoop-HiveOozie错误处理，我

hadoop Oozie section strong stackoverflow error-handling hive bigdata

java - Hive 自动递增

我想在Hive中创建一个auto_increment列。我在hive文档上没有看到任何关于此的内容，但我发现我们可以使用:UDFRowSequence来做到这一点。是否有最新的方法来做到这一点，或者是否有新的方法，最“简单”？我已经尝试过了:所以在我的Java项目中，我创建了这样的函数:privatestaticvoidcreateAutoIncrFunction()throwsSQLException{Statementstmt=conn.createStatement();Stringsql="createfunctionautoincras\"org.apache.hadoop.

java Hive section increment 34 hadoop auto-increment hiveql

mysql - 返回每个用户具有的不同值的 Hive 查询

我有一个mysql表-UserValueA1A12A3B4B3B1C1C1C8D34D1E1F1G56G1H1H3C3F3E3G3我需要运行一个查询，返回每个用户拥有的第二个不同值。意味着如果每个用户访问任何2个值，则根据出现情况，选择第二个不同的值。Soasabove1&3isbeingaccessedbyeachUser.Occurrenceof1ismorethan3,so2nddistinctwillbe3所以我首先想到我会得到所有不同的用户。createtabletempASSelectdistinctuserfromtable;然后我会有一个外部查询-Selectvalue

mysql Hive section value users hadoop hiveql

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上，我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表，如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

hadoop Hive java apache amazon-web-services amazon-s3

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程，每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在，在运行与普通配置单元作业相同的同时，我可以将文件路径设置为data_2015-07-07.csv，但如何在Oozie协调器中执行此操作，以便它自动选择名称为日期的

中选 hadoop gt lt 34 hive oozie oozie-coordinator

mysql - Hive:计算运行 DISTINCT

嗨，有没有一种方法可以计算HIVE中的不同运行计数？我有一个数据框，其中包含日期和时间以及当前正在访问网站的人的ID。我想做的是知道不同的“累积”计数id按日期拆分。我不能按dt、hour、count(distinctid)使用分组，因为如果一个玩家在1和2处处于事件状态，它将被计算两次。有没有办法使用Hive分析和窗口来做到这一点？我试过:selectdate,hour,count(distinctid)over(partitionbydateorderbyhrsrowsbetweenunboundedprecedingandcurrentrow)usersfromdb.table但

DISTINCT mysql 2015 01 section hadoop hive

regex - Hive - 过滤不同的名称

我因过滤某些电影标题而陷入困境。我的问题是我有很多不同的电影标题，例如:Movies:Visitors:BreakingDawnPart1+2100BreakingDawn1+240BreakingDawn1+230DarkKnighttrilogy3D100DarkKnighttrilogy3D40DarkKnightTrilogyHDF30DarkKnightTrilogy-HDF100DarkKnighttrilogy_(blank)44etc.+10000所以有很多不同的电影标题，它们的名字并不唯一，并且在结尾处也有一些空格。我可以稍微解决这个问题，但是已经有很多标题，它们具有

regex Hive moviename section 3D hadoop filtering hiveql

ubuntu - 启动 Hive 给我一个 SessioniveMetaStoreClietnt 运行时异常

只是按照教程点上的教程安装Hive，我正在运行Ubuntu15.04，Hadoop2.6.0并尝试使用Derby10.11.1.1安装Hive1.2.1执行时的完整错误:hive是Exceptioninthread"main"java.lang.RuntimeException:java.lang.RuntimeException:unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientatorg.apache.hadoop.hive.ql.Session.SessionState.

SessioniveMetaStoreClietnt ubuntu section metastore_db metastore hadoop hive derby