$hive_草庐IT

hadoop - 将 hive 表写入 HDFS 文件时删除空格和 UTF

我正在尝试使用以下查询将配置单元表写入hdfs文件insertoverwritedirectory''selectcustomerid,'\t',f1,',',f2,',',f3,',',f4,',',f5fromsd_cust_product_recomm_all_emailid_model2WHEREEMAILIDISNOTNULL;我正在获取文件中的UTF和空格。输出是这样的:customer1\t^Af1^A,^Af2^A,^Af3^A,^Af4^A,^Af5^A,我想要以下格式的输出customer1/tf1,f2,f3,f4,f5customer2/tf1,f2,f3,f4

hadoop HDFS section 39 code utf-8 hive

hadoop - Hive:创建语句未运行(移动)

我正在使用Hive的第13个Cloudera版本。我在运行任何create语句时遇到问题。DML和drop、alter等其他操作运行良好。下面是我尝试运行的示例语句，有什么我遗漏的吗？CREATEEXTERNALTABLEIFNOTEXISTSPROCESS.aggregated_rspns(idint,dtstring,hourstring,rspns_countbigint,highest_rspns_countbigint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\001'LOCATION'/xyz/pqr/aggregated_rspns';谁

hadoop Hive section strong rspns hiveql

hadoop - Hive 外部表不显示任何内容

我正在尝试通过以下链接中的Twitter数据教程来学习Hive。https://github.com/cloudera/cdh-twitter-example/我已经成功安装和配置了hadoop和hive，并测试了将简单的文本文件加载到hive表中。到目前为止一切正常。然而，即使认为文件存在于hdfs中，外部表也没有显示任何内容。我使用下面的代码来创建表格。CREATEEXTERNALTABLE(...Columns.......)PARTITIONEDBY(datehourINT)ROWFORMATSERDE'com.cloudera.hive.serde.JSONSerDe'LOC

hadoop Hive section code cloudera flume

hadoop - 为什么在 Ambari 从 1.6.0 迁移到 2.0.0 时调用 hive Metatool updatelocation 以将位置移动到不需要的地方？

我正在将我的HDP2.1hadoop集群迁移到HDP2.2.4。第一步是将ambari从1.6.0迁移到2.0.0。完成这一步后，我重新启动了我的服务。通过Ambari2.0启动“HiveServer2”失败，而sudoservicehive-server2start、后续的Hive请求和AmbariHive服务检查工作。它失败了，因为它试图在python配置步骤中使用如下命令将我的非默认数据库位置迁移到apps/hive/warehouse:hive--config/etc/hive/conf.server--servicemetatool-updateLocationhdfs://

时调 updatelocation code hive section hadoop hortonworks-data-platform ambari

hadoop - hive - Split 函数中的正则表达式不提供输出

输入:[a,b],[c,d],[e,f]selectsplit(col,'\\,')fromtable_1;通过上面的查询，我可以在每个逗号上进行拆分。(大括号内外)我只需要在大括号外的逗号处进行拆分。所以我按如下方式更改了查询。selectsplit(col,',(?=\[)')fromtable_1;据我所知，我使用的正则表达式是正确的，但无法获得输出。需要的输出:"[a,b]","[c,d]","[e,f]" 最佳答案看起来你的数据之间有一个空格，所以试试这个正则表达式:,\\s(?=\\[)编辑:所以，我不确定你的列中是否

hadoop Split code section pre hive hiveql

hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果

我有两个Java中的HiveUDF，它们可以工作在Hive中非常好。这两个功能是互补的。StringmyUDF(BigInt)BigIntmyUDFReverso(String)myUDF("myInput")给出一些输出当myUDFReverso(myUDF("myInput"))应该返回myInput这在Hive中有效，但是当我尝试使用它在Impala(版本1.2.4)中给出了预期的myUDF(BigInt)的答案(打印的答案是正确的)但是传递给myUDFReverso(String)的答案没有给出返回原始答案)。我注意到Impala1.2.4中的length(myUDF("myI

Impala hadoop code section hive cloudera-cdh udf

hadoop - 是否可以在 Hive 中导出多个分区

是否可以在一次EXPORT中从一张表中导出多个分区？Documentation说:EXPORTTABLEtablename[PARTITION(part_column="value"[,...])]TO'export_target_path'我想[,...]意味着额外的分区列:part_column1="value",part_column2="value"不是同一分区列的不同值.是否可以使用具有多个值的一列？我的意思是这样的:part_column1="value1","value2"或part_column1="value1",part_column1="value2"？[编辑]我

中导 hadoop start_date code section hive

hadoop - 带有查询的位置 Hive 日志 (Tez)

最近我从Hadoop1.0迁移到Hadoop2.0。现在Hive在Tez上执行，我找不到包含查询的日志。我可以访问聚合日志:yarnlogs-applicationIdapplication_xxx。但它不包含我的查询文本"selectfoofrommyTablewhereday='2015-07-03'"请帮助我查找带有查询的日志。最佳答案终于解决了这个问题!关注此instruction，我在Ambari(Hortonworks)中创建了一个TezView。现在我可以看到每个作业的详细报告，甚至是DAG的图片!

hadoop Hive section stackoverflow 中创 hadoop-yarn apache-tez

ubuntu - 在 Ubuntu 上安装 Hive 时遇到问题

我正在尝试在我的Ubuntu机器上安装Hive，并使用以下链接作为指南。我在运行指南中的第4步时遇到问题。http://www.edureka.co/blog/apache-hive-installation-on-ubuntu/我想我已经正确安装了Hadoop。我在尝试创建仓库目录时收到的错误如下:$hadoopfs-mkdir/hduser/hive/warehouse15/07/0409:16:16WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-jav

ubuntu section code hive hadoop

java - Hive jdbc.query(sql, rowmapper) 抛出 UnCatogarized 异常

我正在使用spring-jdbc模板来查询Hive-0.11.0以下代码效果很好。publicListlistStudents(){StringSQL="select*fromStudent";Liststudents=jdbcTemplateObject.query(SQL,newStudentMapper());returnstudents;}publicclassStudentMapperimplementsRowMapper{publicStudentmapRow(ResultSetrs,introwNum)throwsSQLException{Studentstudent=n

UnCatogarized rowmapper springframework code JdbcTemplate java spring hadoop hive hiveql