草庐IT

hadoop - 我如何使用 Hive 截断 url

如何使用Hive脚本截断域“com”旁边的以下URL。即你只tube.comhttp://www.youtube.com/video/AiL6nLhttp://www.yahoo.com/video/Hhj9B2http://www.youtube.com/video/MpVHQhttp://www.google.com/video/PGuTNhttp://www.youtube.com/video/VU34MI可以这样截断吗? 最佳答案 尝试从mytable中选择split(url,'/')[0]mytable是您的表格,url是

c# - 如何使用 C# 连接到 HBase/Hadoop 数据库

最近,ExploringMicrosoftHDInsightHadoopforWindows。但不知道从哪里开始,开始使用apachehadoop和c#/asp.netmvc。我知道http://hadoopsdk.codeplex.com/是最好的可用资源,但找不到从头开始的文档?比如创建集群、数据库,然后将其连接到C#应用程序。 最佳答案 最简单的入门方法是使用HDInsightserviceonAzure(仍在预览中,但效果很好)。这样,您只需登录到您的Azure门户并启动一个集群,该集群将链接到您的Azure存储。如果实在不

mysql - Hadoop 与关系数据库

我是Hadoop的新手,想知道Hadoop在某个场景中的工作原理。在创建DynamicWeb项目期间,我曾经通过从Java/C#发送查询来存储和从MySQL数据库获取数据。我在我的项目中使用Hadoop服务,并且hadoop是否提供任何内置数据库系统,我们可以在其中存储数据并在需要时检索数据,而不是使用外部数据库。提前致谢。 最佳答案 Hadoop不提供任何内置数据库。这只是两件事:分布式文件系统(HDFS)分布式处理框架(MapReduce。我简称为MR)我假设您需要非常快速的响应,因为您正在处理Web服务。恕我直言,Hadoop

sql - Hive SQL 编码风格 : intermediate tables?

我应该在配置单元中创建和删除中间表吗?我可以写类似的东西(大大简化):droptableifexiststmp1;createtabletmp1asselecta,b,cfrominput1wherea>1andb或者我可以将所有内容汇总到一个语句中:droptableifexistsoutput;createtableoutputasselectx,a,count(*)ascountfrom(selecta,b,cfrominput1wherea>1andb显然,如果我多次重复使用中间表,那么创建它们就很有意义了。但是,当它们只使用一次时,我有一个选择。两个我都试过了,第二个是6%快

java - PIG - 找到接口(interface) org.apache.hadoop.mapreduce.JobContext,但类是预期的

我试图从配置单元加载一个表。为此,我正在使用Hcatalog。我使用登录到配置单元pig-useHCatalog我从hive和hadoop导出了几乎所有的jarregister'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-exec-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-common-0.10.0-

hadoop - 如何使用 sqoop 在 Hive 中创建外部表。需要建议

使用sqoop我可以创建托管表但不能创建外部表。请告诉我从数据仓库卸载数据并将其加载到Hive外部表的最佳实践是什么。1.仓库中的表是分区的。有些按日期分区,有些按状态分区。请将您的想法或实践用于生产环境。 最佳答案 Sqoop不支持创建Hive外部表。相反,您可能会:使用Sqoopcodegen命令生成用于创建与您的远程RDBMS表匹配的Hive内部表的SQL(参见http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_literal_sqoop_codegen_litera

json - 如何使用 Hive (get_json_object) 查询结构数组?

我将以下JSON对象存储在Hive表中:{"main_id":"qwert","features":[{"scope":"scope1","name":"foo","value":"ab12345","age":50,"somelist":["abcde","fghij"]},{"scope":"scope2","name":"bar","value":"cd67890"},{"scope":"scope3","name":"baz","value":["A","B","C"]}]}“features”是一个长度可变的数组,即所有对象都是可选的。对象具有任意元素,但它们都包含“范围”、

Hive实战:统计总分与平均分

文章目录一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表,加载HDFS数据文件4、利用HiveSQL统计总分与平均分四、拓展练习一、实战概述本次实战主要聚焦于使用Hive框架对成绩数据进行处理和分析。任务目标是基于一个包含六个字段(姓名、语文、数学、英语、物理、化学)的成绩表,计算每个学生的总分和平均分。首先,我们在虚拟机上创建了一个名为score.txt的文本文件,其中包含了五名学生的成绩记录。然后,我们将该文件上传到HDFS的指定目

hadoop - 使用 hive -e 'select' 打印列标题时是否可以停止 HIVE 打印数据库?

执行时:hive-e'select*fromdatabase.table'>/localfilesystem/mytable.txt列标题名称的格式为database.columnname,我希望它们只是columnname。执行上述类型的查询时,有没有办法在列名中抑制数据库? 最佳答案 hive.resultset.use.unique.column.names是在0.13中添加的,默认为True。只需在~/.hiverc或hive-site.xml中将其设置为falsehive.resultset.use.unique.colu

hadoop - Hive UDF 文本到数组

我正在尝试为Hive创建一些UDF,它为我提供了比已经提供的功能更多的功能split()功能。importorg.apache.hadoop.hive.ql.exec.UDF;importorg.apache.hadoop.io.Text;publicclassLowerCaseextendsUDF{publicTextevaluate(finalTexttext){returnnewText(stemWord(text.toString()));}/***Stemswordstonormalform.**@paramword*@returnStemmedword.*/privateS