column-count

hadoop - hdfs dfs -count 从哪里获取信息？

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量，该集群具有大量数据。所以，我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息？它像hdfsdfs-ls一样工作吗？或者它直接从HDFS中的Namenode获取它的信息？非常感谢! 最佳答案它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

hadoop - Impala 可以从表中执行 COUNT() 但不能执行 SELECT

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格，但我无法在Impala中运行以下查询，因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

hadoop Impala section code hive

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

mysql - Hive count(*) 比实际的 SQL 表多显示一行

我使用命令sqoopimport使用sqoopimport从sql中导入了一个表。在从Hive中执行selectcount(*)时，我得到的行数为231743但实际的SQL表有231742行。为什么我要为这张表多一行？我导入了另外2个具有大量数据的类似表，并且正在获取准确的计数。但是这个特定的表在配置单元中给了我额外的一行。这是为什么？:-oPS:我在sqoop导入命令中包含了--hive-drop-import-delims提前致谢:)更新:好像我在表中有重复的条目。它是在导入过程中生成的。任何人都知道为什么？:) 最佳答案好的

mysql count section sqoop 中包 hadoop hive

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询？

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中，我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

amp Hive java code hadoop sql

hadoop - DSE 4.0.1 : hive count different than cassandra count

我们正在运行DatastaxEnterprise4.0.1，在向Cassandra中插入行然后在配置单元中查询COUNT(1)时遇到了一个非常奇怪的问题。设置:DSE4.0.01、Cassandra2.0、Hive、全新集群。向Cassandra中插入10,000行，然后:cqlsh:pageviews>selectcount(1)frompageviews_v1limit100000;count-------10000(1rows)cqlsh:pageviews>但是来自Hive:hive>selectcount(1)frompageviews_v1limit100000;Total

count cassandra 39 pageviews hadoop amazon-ec2 hive datastax-enterprise

hadoop - pig : Create new column based off of two other columns

我想知道是否有可能在pig身上做这样的事情:一共有三列:“类型1”、“类型2”、“类型3”B101,159,74我想这样定义C列:如果A=="type1"那么C=B;否则C=0这在pig身上可能吗？最佳答案是的，这是可能的。你可以这样写:data=LOAD'$dataSource'usingAvroStorage();--data={A,B}data2=FOREACHdataGENERATEA,B,(A=='type1'?B:0)ASC;dumpdata2; 关于hadoop-pig

columns hadoop section data stackoverflow apache-pig bigdata

hadoop - pig 脚本: count returns 0 on null field

我有一个pig脚本，它通过json的“公司”部分加载文件。当我执行计数时，如果文件中缺少域(或为空)，则计数为0。我怎样才能将它分组为空字符串并仍然对其进行计数？文件示例:{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test2company"}}{"company":{"domain":"test2.com","name":"t

returns hadoop 34 company test scripting count apache-pig mortar

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时，内部发生了什么？例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输，Sqoop需要找到--sp

target-dir amp section split-by code hadoop

hadoop - hive QL : split column into 2 columns and rank each column

代码selectc1,c2,c3,c4,c5,c6fromtablewherec5in('a','b')从这里开始，我想将c5列拆分为两列，然后根据它们对c6的值对它们进行排名。一列应该由所有a结果组成，另一列应该是所有b结果。我已经能够使用rank()对它们进行排名，但无法将列分开。我还没有得到其他人曾经为我工作的技术。最佳答案 selectc1,c2,c3,c4,c5,c6,rank()over(partitionby...orderbycasewhenc5='a'then1casewhenc5='b'then2end)asr

column columns section code 39 hadoop hive

132 133 134135136 137 138