草庐IT

HIVE-SQOOP

全部标签

sql - 获取Hive中每个单词的唯一字数

我有如下表格,从表名中选择*;IDsentence1Thisisasentence2Thismightbeatest3America4Thisthis我想编写一个查询,将句子拆分成单词,并按降序获取单词数。我想要一个类似的输出,wordcountUnique(ids)This43a22might11...其中count是单词在列中出现的次数,Unique(ids)是使用该单词的用户数。我在想我们可以用什么方式编写查询来做到这一点?有人可以帮我在hive中做这件事吗?谢谢 最佳答案 侧面Viewhttps://cwiki.apache

hadoop - Sqoop:创建链接失败并出现数字格式异常

我正在尝试在SqoopforHadoop中使用generic-jdbc-connector创建一个链接。但是,当我尝试获取数字格式异常时:sqoop:000>showconnector+----+------------------------+---------+------------------------------------------------------+----------------------+|Id|Name|Version|Class|SupportedDirections|+----+------------------------+---------+-

java - JDBC hive 连接字符串中使用的端口号在哪里定义?

我刚刚开始Hadoop和Hive编程,并且编写了一个Java代码,它连接到一个derbyMetastore,并提供正确的输出。我定义的连接字符串是:jdbc:hive2://localhost:10000/default该程序运行良好,并为我提供了所需的输出。但是我想知道这个端口号10000是在哪里定义的,以及如果需要如何更改这个端口号。 最佳答案 您可以在Hive安装目录下找到所有与Hive相关的配置详细信息。文件名为hive-site.xml就像在我的例子中文件存在于此路径下/usr/hdp/current/hive-serve

hadoop - teradata connector sqoop sequencefile 格式能否克服分隔符问题?

如果数据库在字段中包含诸如“,”和“\n”之类的字段,是否有一种方法可以在不必修复这些分隔符的情况下使用sqoop到hive,可能使用替代格式而不是标准文本文件?一直在使用一些解决方法(即/替换定界符、oreplace等)。 最佳答案 我找到的解决方案是在换行符的列基础上解决这个问题:SELECTCOL_A,OREPLACE(COL_B,'0A'XC,'_replace_char_'),...,COL_NFROMTABLE_NAME假设这也适用于逗号。我还没有测试你是否可以嵌套这个replacechar语句。也没有估计对假脱机空间使

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类,或者我们可以定义自定义函数,该函数将提供划分为聚类桶的逻辑? 最佳答案 可以在任何列上创建集群/桶,对于非数字列,HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。 关于hadoop-Hive中字符串的CL

hadoop - HIVE 拆分字符串

hive:-我有一列changeContext==>"A345|Fq*A|2017-05-01|2017-05-01"(字符串),我需要从中提取A345作为另一列。有什么建议吗?附言我已经尝试过regexp_extract(遇到顶点故障)所以任何其他解决方案都是完美的。 最佳答案 withtas(select"A345|Fq*A|2017-05-01|2017-05-01"aschangeContext)selectsubstring_index(changeContext,'|',1)option_1,split(changeCo

java.lang.ClassNotFoundException : org. apache.hive.service.cli.HiveSQLException 异常

为了通过spring应用程序连接配置单元,我在pom.xml中添加了以下依赖项。org.apache.hivehive-jdbc2.1.1org.apache.thriftlibfb3030.9.3org.apache.hivehive-commonorg.apache.hivehive-service-rpc2.1.1Butstilliamfacingthebelowexception::Causedby:java.lang.NoClassDefFoundError:org/apache/hive/service/cli/HiveSQLExceptionatorg.apache.hi

mysql - 使用Sqoop从mysql导入数据到HDFS

我正在使用Hadoop-1.2.1和Sqoop-1.4.6。我正在使用sqoop使用以下命令将表test从数据库meshtree导入HDFS:`sqoopimport--connectjdbc:mysql://localhost/meshtree--usernameuser--passwordpassword--tabletest`但是,它显示了这个错误:17/06/1718:15:21WARNtool.BaseSqoopTool:Settingyourpasswordonthecommand-lineisinsecure.Considerusing-Pinstead.17/06/17

mysql - 我们可以在 Sqoop 中控制 $CONDITIONS 吗?

$Conditions根据自己决定的占位符将自由格式查询分成不同的拆分。比如说,我们有一个查询,它给出了1000条记录的结果。默认情况下,它会被$CONDITIONS分成4个不同的边界条件查询(1,250)(251,500)(501,750)and(751,1000).我们可以做些什么来根据我们的要求实现查询拆分? 最佳答案 您不能选择查询分区偏移量。您可以控制两件事:--boundary-query用于创建拆分。--num-mappers用于控制拆分次数。显然--split-by专栏。为每个拆分选择边界听起来是个好主意。但从数据中

hadoop - SQOOP 在本地文件系统中导入存储数据而不是在 HDFS 中

我正在尝试通过sqoop将数据从mysql导入到hdfs,但是在将其存储数据导入到我的/home//文件夹中而不是hdfs中之后。sqoopimport-fslocal\-jtlocal\-libjars/tmp/sqoop-amar/compile/00992af844025da3f2ee7d83cb03a6b3/user_account.jar\--create-hive-table--connectjdbc:mysql://localhost/ecom\--usernameroot--password123456\--hive-import--tableuser_account