test_hive

hadoop - 我如何使用 Hive 截断 url

如何使用Hive脚本截断域“com”旁边的以下URL。即你只tube.comhttp://www.youtube.com/video/AiL6nLhttp://www.yahoo.com/video/Hhj9B2http://www.youtube.com/video/MpVHQhttp://www.google.com/video/PGuTNhttp://www.youtube.com/video/VU34MI可以这样截断吗？最佳答案尝试从mytable中选择split(url,'/')[0]mytable是您的表格，url是

sql - Hive SQL 编码风格 : intermediate tables?

我应该在配置单元中创建和删除中间表吗？我可以写类似的东西(大大简化):droptableifexiststmp1;createtabletmp1asselecta,b,cfrominput1wherea>1andb或者我可以将所有内容汇总到一个语句中:droptableifexistsoutput;createtableoutputasselectx,a,count(*)ascountfrom(selecta,b,cfrominput1wherea>1andb显然，如果我多次重复使用中间表，那么创建它们就很有意义了。但是，当它们只使用一次时，我有一个选择。两个我都试过了，第二个是6%快

intermediate tables table section code sql hadoop hive

hadoop - 如何使用 sqoop 在 Hive 中创建外部表。需要建议

使用sqoop我可以创建托管表但不能创建外部表。请告诉我从数据仓库卸载数据并将其加载到Hive外部表的最佳实践是什么。1.仓库中的表是分区的。有些按日期分区，有些按状态分区。请将您的想法或实践用于生产环境。最佳答案 Sqoop不支持创建Hive外部表。相反，您可能会:使用Sqoopcodegen命令生成用于创建与您的远程RDBMS表匹配的Hive内部表的SQL(参见http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_literal_sqoop_codegen_litera

中创建外 section Hive sqoop hadoop

json - 如何使用 Hive (get_json_object) 查询结构数组？

我将以下JSON对象存储在Hive表中:{"main_id":"qwert","features":[{"scope":"scope1","name":"foo","value":"ab12345","age":50,"somelist":["abcde","fghij"]},{"scope":"scope2","name":"bar","value":"cd67890"},{"scope":"scope3","name":"baz","value":["A","B","C"]}]}“features”是一个长度可变的数组，即所有对象都是可选的。对象具有任意元素，但它们都包含“范围”、

json get_json_object 34 code section hadoop hive hiveql

Hive实战：统计总分与平均分

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表，加载HDFS数据文件4、利用HiveSQL统计总分与平均分四、拓展练习一、实战概述本次实战主要聚焦于使用Hive框架对成绩数据进行处理和分析。任务目标是基于一个包含六个字段（姓名、语文、数学、英语、物理、化学）的成绩表，计算每个学生的总分和平均分。首先，我们在虚拟机上创建了一个名为score.txt的文本文件，其中包含了五名学生的成绩记录。然后，我们将该文件上传到HDFS的指定目

总分平均分 code xff li hive

hadoop - 使用 hive -e 'select' 打印列标题时是否可以停止 HIVE 打印数据库？

执行时:hive-e'select*fromdatabase.table'>/localfilesystem/mytable.txt列标题名称的格式为database.columnname，我希望它们只是columnname。执行上述类型的查询时，有没有办法在列名中抑制数据库？最佳答案 hive.resultset.use.unique.column.names是在0.13中添加的，默认为True。只需在~/.hiverc或hive-site.xml中将其设置为falsehive.resultset.use.unique.colu

amp hadoop code section hive hiveql

hadoop - Hive UDF 文本到数组

我正在尝试为Hive创建一些UDF，它为我提供了比已经提供的功能更多的功能split()功能。importorg.apache.hadoop.hive.ql.exec.UDF;importorg.apache.hadoop.io.Text;publicclassLowerCaseextendsUDF{publicTextevaluate(finalTexttext){returnnewText(stemWord(text.toString()));}/***Stemswordstonormalform.**@paramword*@returnStemmedword.*/privateS

hadoop Hive code word String user-defined-functions

java - Hive 事务正在崩溃

好吧，我已经处理这个问题几天了，这让我发疯了。我需要使用带有事务的Hive数据库来执行“更新”和“删除”操作。我已经以伪分布式模式在我的机器上安装了Hadoop和Hive。我已关注此tutorial用于安装。我使用的是Java1.8.0_31、Hadoop2.6.0、Hive1.0.0，我还更改了一些细节，但这些应该无关紧要。现在，要启动我的环境(例如，重新启动后)，我运行以下命令:start-dfs.shstart-yarn.shjava-jar/usr/local/derby/lib/derbyrun.jarserverstart&hive一切似乎都运行良好。尽管本教程没有提到启动

java Hive code metastore maven hadoop transactions

hadoop - 使用架构文件创建一个 Parquet 支持的 Hive 表

Clouderadocumentation，展示了一种简单的方法来“使用Avro模式文件创建Avro支持的Hive表。”这很好用。我想对Parquet支持的Hive表做同样的事情，但是相关的documentation在这种情况下，列出了每个列类型，而不是从模式中读取。是否有可能以与Avro数据相同的方式从模式中读取Parquet列？最佳答案目前，答案似乎是否。Hive有一个Unresolved问题。https://issues.apache.org/jira/browse/PARQUET-76这个问题最近很活跃，所以希望Hive

Parquet hadoop section documentation noreferrer hive schema avro

hadoop - Hive 为 HDFS 中的每个插入创建多个小文件

下面已经实现了KafkaProducer使用SparkStreaming从Twitter中提取数据。KafkaConsumer将数据提取到Hive外部表(在HDFS上)。虽然到目前为止一切正常。我只面临一个问题，当我的应用程序将数据插入Hive表时，它创建了一个小文件，每个文件的每一行数据。下面是代码//Definewhichtopicstoreadfromvaltopic="topic_twitter"valgroupId="group-1"valconsumer=KafkaConsumer(topic,groupId,"localhost:2181")//CreateSparkCo

hadoop Hive code 34 section hdfs apache-kafka spark-streaming

129 130 131132133 134 135