草庐IT

client_count

全部标签

sql - 如何用 Hive 做 Max in count(*)?

我有两个表:飞行:年份,产地机场:代码,名称这是一个数据样本:飞:1989,SF1989,SF1989,NY1993,NY1998,Par1998,Par1998,NY机场:SF,InternationalAirportNY,InterAirPar,CharlesdeGaulle我想获得每年使用最多的机场。所以首先我做了这个请求来获取每个机场每年出现的次数:SELECTv.Year,a.airport,count(*)FromairportsaJOINVolvON(a.iata=v.Dest)GroupByv.Year,a.airportORDERBYYearASC,airportAS

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

hadoop - hdfs dfs -count 从哪里获取信息?

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量,该集群具有大量数据。所以,我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息?它像hdfsdfs-ls一样工作吗?或者它直接从HDFS中的Namenode获取它的信息?非常感谢! 最佳答案 它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

hadoop - Impala 可以从表中执行 COUNT(*) 但不能执行 SELECT *

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格,但我无法在Impala中运行以下查询,因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案 错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪,它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

mysql - Hive count(*) 比实际的 SQL 表多显示一行

我使用命令sqoopimport使用sqoopimport从sql中导入了一个表。在从Hive中执行selectcount(*)时,我得到的行数为231743但实际的SQL表有231742行。为什么我要为这张表多一行?我导入了另外2个具有大量数据的类似表,并且正在获取准确的计数。但是这个特定的表在配置单元中给了我额外的一行。这是为什么?:-oPS:我在sqoop导入命令中包含了--hive-drop-import-delims提前致谢:)更新:好像我在表中有重复的条目。它是在导入过程中生成的。任何人都知道为什么?:) 最佳答案 好的

Eclipse MapReduce 插件错误 : Server IPC version 7 cannot cannot communicate with client version 3

当我尝试连接到MapReduce位置时,我的笔记本电脑(我有我的eclipse和mapreduce插件)是一个namenode和datanode的集群,我得到错误:服务器IPC版本7无法与客户端版本3通信。我试图在谷歌上找到一些信息,但找不到太多。是不是因为我的mapreduceeclipse插件使用旧版本的IPC而hadoop集群有更新的版本。所以只是我使用的是过时的插件?如何找到我的eclipse插件使用的IPC版本?有什么想法吗? 最佳答案 是的,这听起来像是版本不兼容。假设您的hadoop发行版有源代码,您可以为该版本重新编

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

hadoop - DSE 4.0.1 : hive count different than cassandra count

我们正在运行DatastaxEnterprise4.0.1,在向Cassandra中插入行然后在配置单元中查询COUNT(1)时遇到了一个非常奇怪的问题。设置:DSE4.0.01、Cassandra2.0、Hive、全新集群。向Cassandra中插入10,000行,然后:cqlsh:pageviews>selectcount(1)frompageviews_v1limit100000;count-------10000(1rows)cqlsh:pageviews>但是来自Hive:hive>selectcount(1)frompageviews_v1limit100000;Total