$hive

sql - Hive 返回每个用户的操作列表

我有一个配置单元表t_user_action:uid,timestamp,action1,2016-01-0112:00,login3,2016-01-0112:30,login1,2016-01-0112:05,click2,2016-01-0113:00,login2,2016-01-0113:05,logout...我想写一个配置单元sql，返回每个用户的操作列表。它应该是:1,[,]2,[,]3,[]如何通过hivesql得到这个结果？最佳答案你可以使用collect_set()函数SELECTuid,COLLECT_S

hadoop - 通过 Hive 外部表将 Hbase 数据索引到 solr

我已经通过Nutch2.3.1爬取了一些数据。数据存储在Hbase0.98表中。我创建了一个从hbase表导入数据的外部表。现在我必须将此数据索引到solr4.10.3。为此，我关注了this。众所周知的教程。我已经像这样创建了配置单元表createexternaltableifnotexistssolr_items(idSTRING,contentSTRING,urlSTRING,titleSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'storedby"com.chimpler.hive.solr.SolrStorageHandler"w

hadoop Hbase section code solr indexing hive

hadoop - 为什么字段在 Hive 中被分成两部分？

代码如下:--createtablenovaya.unnormalasselectqueryfromdefault.daily_session_mobilewheredt='20161020'andpagein('/click_search_deal','/click_search_product')andquerylike'%memberID=33930938%'andquerylike'%스텐드지퍼팩%'结果只有一条记录，是对的“查询”字段中的值为searchCount=52&rank=39&logType=click¤tView=/search_list&search

hadoop Hive amp code section

hadoop - Hive - 将数据插入分区表 : partition not found

我在尝试向Hive外部分区表中插入新数据时遇到问题。表是按天分区的，我得到的错误是:FAILED:SemanticException[Error10006]:Line1:51Partitionnotfound''18102016''我的查询如下:ALTERTABLEmy_source_tableRECOVERPARTITIONS;INSERTOVERWRITETABLEmy_dest_tablePARTITION(d='18102016')SELECT'III'ASprimary_alias_type,iii_idASprimary_alias_id,FROMmy_source_tab

partition hadoop section code table insert hive

scala - 使用 spark 将 null 设置为 Hive 表中数字数据类型的值

我正在寻找一种解决方案，我需要使用Spark在其中没有值的数字字段中填充null。我写的代码如下:valmyDF=sqlContext.sql("frommystg.my_acct_tableselectid,amt,tot_amtwhereid=12345")myDF.map(row=>{valrow1=row.getAs[Double]("tot_amt")valmy_tot_amt={if(row1.isNaN())null.asInstanceOf[Double]elseMath.abs(row1.toDouble)}Row(row(0),row(1),my_tot_amt)}

scala spark code row section hadoop apache-spark spark-dataframe

hadoop - Parquet 格式的 hive1.1 不支持日期数据类型？

我正在使用来自clouderaCDH5.5的配置单元1.1当我尝试创建如下所示的配置单元内部表时，出现以下错误。hive>createtableacct_IK(acct_idint,acct_nameString,trans_dtdate)>storedasparquet;FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.java.lang.UnsupportedOperationException:Parquetdoesnotsupportdate.SeeHIVE-6384我需要将配

不支 Parquet section 配置单 hive hadoop

java - 在 Java MapReduce 作业中写入 Hive

我目前正在处理一个JavaMapReduce作业，它应该将数据输出到一个分桶的Hive表。我想到了两种方法:首先直接通过HCatalog写入Hive。问题是，这种方法不支持写入分桶Hive表。因此，当使用分桶Hive表时，我需要先写入非分桶表，然后将其复制到分桶表。第二个选项是将输出写入文本文件，然后将此数据加载到Hive中。此处的最佳做法是什么？哪种方法在处理大量数据时性能更好(考虑到内存和所用时间)？如果我还可以使用非分桶Hive表，哪种方法更好？非常感谢! 最佳答案对于非分桶表，您可以将MapReduce输出存储在表存储位置

MapReduce java section Hive 非分 hadoop hcatalog

hadoop - 在 Hive 上交叉应用 SQL Server 查询

HDP-2.5.0.0使用Ambari2.4.0.1Hive表ReportSetting如下:idintserializedreportsettingString“serializedreportsetting”列是源SQLServer数据库中的XML数据类型，但在Sqoop导入期间被转换为字符串，这是它在SQLServer中的样子:true811000005truefalse0在Hive表中:true8123123340040falsefalse3在SQLServer上运行良好的查询:SELECTr.VehicleId,rs.value('(Trigger/Manual)[1]','

hadoop Server 39 gt lt hive hortonworks-data-platform hive-udf

hadoop - Hive 如何或为什么允许更改表？是不是违反了HDFS的一次写入多次读取

Hive在HDFS上运行。它的默认目的地是HDFS中的“/user/hive/warehouse”。使用Hive我们可以创建表和“ALTER”。更改表包括删除/修改表中的现有列(驻留在HDFS中的某处!!!)。写入HDFS的任何内容都无法修改。但是Hive的alter也在做同样的事情。这怎么可能？任何想法! 最佳答案您只更改表的元数据-而不是数据本身。另外，请注意hive中没有dropcolumn指令。关于hadoop-Hive如何或为什么允许更改表？是不是违反了HDFS的一次写入多

hadoop Hive section HDFS

hadoop - 如何为 Hive 的分区表指定 HDFS Location

我有一个hdfs目录，因为我有很多文件。这个目录正在获取连续数据。现在我正在尝试为该HDFS位置创建一个外部分区表，如下所示，createexternaltablesensor_data(sensor_namestring,alert_typestring,isvalid_alertboolean,valuestring,alert_generated_timebigint)partitionedby(mac_idstring)clusteredby(sensor_name)into13bucketsrowformatdelimitedfieldsterminatedby'|'line

何为 Location section code mac_id hadoop hive

196 197 198199200 201 202