HIVE

sql - 获取Hive中每个单词的唯一字数

我有如下表格，从表名中选择*；IDsentence1Thisisasentence2Thismightbeatest3America4Thisthis我想编写一个查询，将句子拆分成单词，并按降序获取单词数。我想要一个类似的输出，wordcountUnique(ids)This43a22might11...其中count是单词在列中出现的次数，Unique(ids)是使用该单词的用户数。我在想我们可以用什么方式编写查询来做到这一点？有人可以帮我在hive中做这件事吗？谢谢最佳答案侧面Viewhttps://cwiki.apache

单词 Hive section code sql hadoop

scala - 将不同类型的值作为 Spark/Scala 中的参数传递给单个函数

我是Scala的新手。我可以将不同类型的值作为spark/scala中的参数传递给单个函数吗？我的意思是可以访问每种类型的值作为参数(例如String、Int、Double等)的通用函数例。这里的波纹管函数将只接受Int值。defTest(firstColumn:Int,secondColumn:Int):(Int)={//MyCodehere}valFLAG:Int=Test(2,4)请给我一些建议。提前致谢最佳答案您可以使用类型参数并让Scala推断您的返回类型，而不是像这样指定返回类型:defTest[A,B](first

传递 scala section Int code hadoop apache-spark hive

hadoop - Apache kylin cube 失败 "no counters for job"

使用kylin1.5.4，当我构建立方体时，它在第3步失败，日志显示“没有工作计数器”。它也没有获取配置单元表的基数。当我创建一个模型或多维数据集时，它会抛出无法采取行动的错误，但是当我关闭json页面时，它们就会被创建。它不获取日期分区列，抛出在日志中找不到的列。非常感谢任何帮助或见解。最佳答案这有点晚了，但我在当前项目中也遇到了这个问题，我得到了“没有工作计数器”错误。问题是我们在Hive中使用ORC表。我们只是将数据从ORC表移至新的TEXTFILE表，并使用新表在Kylin多维数据集中设置所有内容，一切正常。

amp counters section 多维中设 hadoop hive kylin

java - JDBC hive 连接字符串中使用的端口号在哪里定义？

我刚刚开始Hadoop和Hive编程，并且编写了一个Java代码，它连接到一个derbyMetastore，并提供正确的输出。我定义的连接字符串是:jdbc:hive2://localhost:10000/default该程序运行良好，并为我提供了所需的输出。但是我想知道这个端口号10000是在哪里定义的，以及如果需要如何更改这个端口号。最佳答案您可以在Hive安装目录下找到所有与Hive相关的配置详细信息。文件名为hive-site.xml就像在我的例子中文件存在于此路径下/usr/hdp/current/hive-serve

java JDBC section code strong hadoop hive derby

sql - 如何删除配置单元中特殊字符后的值

我有一个列状态为的配置单元表**state**taxes,TXWashington,WANewYork,NYNewJersey,NJ现在我想把状态列分开，我想把它写在新的列中**state****code**taxesTXWashingtonWANewYorkNYNewJerseyNJ 最佳答案 selectsplit(state,',')[0]asstate,ltrim(split(state,',')[1])ascodefrommytable+------------+------+|state|code|+----------

配置单 sql section code state hadoop hive hiveql

hadoop - teradata connector sqoop sequencefile 格式能否克服分隔符问题？

如果数据库在字段中包含诸如“,”和“\n”之类的字段，是否有一种方法可以在不必修复这些分隔符的情况下使用sqoop到hive，可能使用替代格式而不是标准文本文件？一直在使用一些解决方法(即/替换定界符、oreplace等)。最佳答案我找到的解决方案是在换行符的列基础上解决这个问题:SELECTCOL_A,OREPLACE(COL_B,'0A'XC,'_replace_char_'),...,COL_NFROMTABLE_NAME假设这也适用于逗号。我还没有测试你是否可以嵌套这个replacechar语句。也没有估计对假脱机空间使

sequencefile connector section Removing-a-line-break-character-i https hadoop hive teradata sqoop

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类，或者我们可以定义自定义函数，该函数将提供划分为聚类桶的逻辑？最佳答案可以在任何列上创建集群/桶，对于非数字列，HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。关于hadoop-Hive中字符串的CL

CLUSTER hadoop section strong code hive

hadoop - HIVE 拆分字符串

hive:-我有一列changeContext==>"A345|Fq*A|2017-05-01|2017-05-01"(字符串)，我需要从中提取A345作为另一列。有什么建议吗？附言我已经尝试过regexp_extract(遇到顶点故障)所以任何其他解决方案都是完美的。最佳答案 withtas(select"A345|Fq*A|2017-05-01|2017-05-01"aschangeContext)selectsubstring_index(changeContext,'|',1)option_1,split(changeCo

hadoop HIVE changeContext option section split

java.lang.ClassNotFoundException : org. apache.hive.service.cli.HiveSQLException 异常

为了通过spring应用程序连接配置单元，我在pom.xml中添加了以下依赖项。org.apache.hivehive-jdbc2.1.1org.apache.thriftlibfb3030.9.3org.apache.hivehive-commonorg.apache.hivehive-service-rpc2.1.1Butstilliamfacingthebelowexception::Causedby:java.lang.NoClassDefFoundError:org/apache/hive/service/cli/HiveSQLExceptionatorg.apache.hi

ClassNotFoundException HiveSQLException java org apache maven hadoop hive

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询，我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

配置单 hadoop HiveParser apache hive cloudera bigdata

47 48 495051 52 53