selected_parents

select - Hive:如何使用 HiveQL 执行 SELECT 查询以输出唯一的主键？

我有以下模式数据集，我想将其转换为可以导出到SQL的表。我正在使用HIVE。输入如下call_id,stat1,stat2,stat31,a,b,c,2,x,y,z,3,d,e,f,1,j,k,l,输出表需要将call_id作为其主键，因此它必须是唯一的。输出模式应该是call_id,stat2,stat3,1,b,c,or(1,k,l)2,y,z,3,e,f,问题是，当我在HIVE查询中使用关键字DISTINCT时，DISTINCT适用于所有合并的列。我只想将DISTINCT操作应用于call_id。一些关于SELECTDISTINCT(call_id),stat2,stat3fro

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表，其中(除其他外)有两列，其值相交多次。例如，假设我们有一个表，其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

collapsing instances 罗伯 phone_number number sql hadoop impala

scala - spark - select 中的条件语句

我正在从Dataframecol1和col2中选择两个Column。df.select((col("a")+col("b")).as("sum_col")现在用户希望此sum_col的空格固定为4。所以a和b的长度是2因此最大值可以小于100(二)或大于100(三)所以需要有条件地添加1或2个空格。任何人都可以告诉我如何在selectblock中使用条件逻辑将Column转换为concat并决定一个或两个空格被添加最佳答案只需使用format_string函数importorg.apache.spark.sql.function

select scala code section 34 apache-spark hadoop bigdata

hadoop - Impala 可以从表中执行 COUNT() 但不能执行 SELECT

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格，但我无法在Impala中运行以下查询，因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

hadoop Impala section code hive

hadoop - HIVE:CREATE TABLE AS SELECT 命令无法指定目标表的列列表

我怎样才能让它工作？hive>desctemp;OKaintbintTimetaken:0.077seconds,Fetched:2row(s)我想创建列名为c和d的t2HIVE表，但出现以下错误。hive>createtablet2(cint,dint)asselecta,bfromtemp;FAILED:SemanticException[Error10065]:CREATETABLEASSELECTcommandcannotspecifythelistofcolumnsforthetargettable 最佳答案您无需再次提

列列 hadoop section code pre hive

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

hadoop - 如何让 HIVE 中的 CREATE TABLE...AS SELECT 不填充数据？

当我在HIVE中运行CTAS时，数据也会同时填充。但我只想创建表，而不是填充数据。我应该怎么做？谢谢。最佳答案您可以使用LIKE关键字来做到这一点。createtablenew_table_nameLIKEold_table_name这将创建没有数据的表结构。关于hadoop-如何让HIVE中的CREATETABLE...ASSELECT不填充数据？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

充数 hadoop section strong 中运 hive hiveql

hadoop - node/hbase-unsecure 不在 ZooKeeper 中。检查 'zookeeper.znode.parent' 中配置的值。

我在我的ubuntu机器上启动独立的hBase时遇到这个错误。请帮忙。花了很多时间让它运行起来。:(到目前为止我检查了什么-/etc/hosts包含本地主机127.0.0.1HBase:hbase-0.98.3-hadoop2-bin.tar.gzHadoop:hadoop-2.6.0.tar.gz我的hbase-site.xml中已有节点/hbase-unsecure。当我尝试运行命令时-create'usertable','resultfamily'它给了我以下异常-ERROR:Thenode/hbase-unsecureisnotinZooKeeper.Itshouldhaveb

hbase-unsecure ZooKeeper gt lt property hadoop hbase

hadoop - 如何使用 INSERT-SELECT 查询加载具有复杂数据类型的 Hive 表

我们有一个查询，用于将数据加载到一个表中，使用INSERT-SELECT查询直接在另一个表上，如下所示INSERTOVERWRITETABLESELECT*FROMt2WHERE;同样如何加载复杂数据类型的表？我怎样才能让我的SELECT查询中的几个/一些列为复杂数据类型的列做出贡献？我清楚了吗？table1的模式是TABLE(col1INT,col2STRING,col3ARRAY)注意:从文件加载到这样的表是可能的，但我只是想尝试是否可以使用上面的INSERT-SELECT查询方式加载。感谢您的关注。最佳答案 Hive等同于i

INSERT-SELECT hadoop table code section hive hiveql

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询？

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中，我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

amp Hive java code hadoop sql