草庐IT

column-count

全部标签

hadoop - hdfs dfs -count 从哪里获取信息?

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量,该集群具有大量数据。所以,我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息?它像hdfsdfs-ls一样工作吗?或者它直接从HDFS中的Namenode获取它的信息?非常感谢! 最佳答案 它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

hadoop - Impala 可以从表中执行 COUNT(*) 但不能执行 SELECT *

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格,但我无法在Impala中运行以下查询,因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案 错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

scala - Spark 标度 : select column name from other dataframe

有两个json,第一个json有更多的列,并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作,但是df1有10列,而df2只有8列。如果手动从df1中删除2列,则except将起作用。但是我有50多个表/json,需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3?所以df3将拥有来自df1的有限列的数据,并且它将与df2列匹配。 最佳答案

mysql - Hive count(*) 比实际的 SQL 表多显示一行

我使用命令sqoopimport使用sqoopimport从sql中导入了一个表。在从Hive中执行selectcount(*)时,我得到的行数为231743但实际的SQL表有231742行。为什么我要为这张表多一行?我导入了另外2个具有大量数据的类似表,并且正在获取准确的计数。但是这个特定的表在配置单元中给了我额外的一行。这是为什么?:-oPS:我在sqoop导入命令中包含了--hive-drop-import-delims提前致谢:)更新:好像我在表中有重复的条目。它是在导入过程中生成的。任何人都知道为什么?:) 最佳答案 好的

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

hadoop - DSE 4.0.1 : hive count different than cassandra count

我们正在运行DatastaxEnterprise4.0.1,在向Cassandra中插入行然后在配置单元中查询COUNT(1)时遇到了一个非常奇怪的问题。设置:DSE4.0.01、Cassandra2.0、Hive、全新集群。向Cassandra中插入10,000行,然后:cqlsh:pageviews>selectcount(1)frompageviews_v1limit100000;count-------10000(1rows)cqlsh:pageviews>但是来自Hive:hive>selectcount(1)frompageviews_v1limit100000;Total

hadoop - pig : Create new column based off of two other columns

我想知道是否有可能在pig身上做这样的事情:一共有三列:“类型1”、“类型2”、“类型3”B101,159,74我想这样定义C列:如果A=="type1"那么C=B;否则C=0这在pig身上可能吗? 最佳答案 是的,这是可能的。你可以这样写:data=LOAD'$dataSource'usingAvroStorage();--data={A,B}data2=FOREACHdataGENERATEA,B,(A=='type1'?B:0)ASC;dumpdata2; 关于hadoop-pig

hadoop - pig 脚本: count returns 0 on null field

我有一个pig脚本,它通过json的“公司”部分加载文件。当我执行计数时,如果文件中缺少域(或为空),则计数为0。我怎样才能将它分组为空字符串并仍然对其进行计数?文件示例:{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test2company"}}{"company":{"domain":"test2.com","name":"t

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时,内部发生了什么?例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输,Sqoop需要找到--sp

hadoop - hive QL : split column into 2 columns and rank each column

代码selectc1,c2,c3,c4,c5,c6fromtablewherec5in('a','b')从这里开始,我想将c5列拆分为两列,然后根据它们对c6的值对它们进行排名。一列应该由所有a结果组成,另一列应该是所有b结果。我已经能够使用rank()对它们进行排名,但无法将列分开。我还没有得到其他人曾经为我工作的技术。 最佳答案 selectc1,c2,c3,c4,c5,c6,rank()over(partitionby...orderbycasewhenc5='a'then1casewhenc5='b'then2end)asr