users_count

hadoop - hdfs dfs -count 从哪里获取信息？

我们需要计算Multi-Tenancy多节点集群中大量目录中的文件数量，该集群具有大量数据。所以，我想知道命令“hdfsdfs-count/path/to/directory”从哪里来得到它的信息？它像hdfsdfs-ls一样工作吗？或者它直接从HDFS中的Namenode获取它的信息？非常感谢! 最佳答案它从FileSystemAPI调用getContentSummary方法:ContentSummarysummary=src.fs.getContentSummary(src.path);out.println(summary.

hadoop - 我必须创建/tmp 和/user/hive/warehouse 吗？

来自https://cwiki.apache.org/confluence/display/Hive/GettingStartedRunningHiveHiveusesHadoop,so:youmusthaveHadoopinyourpathORexportHADOOP_HOME=Inaddition,youmustusebelowHDFScommandstocreate/tmpand/user/hive/warehouse(akahive.metastore.warehouse.dir)andsetthemchmodg+wbeforeyoucancreateatableinHive.

warehouse hadoop mkdir hive

hadoop - Sqoop Teradata 连接器问题 - 错误 : The user does not have CREATE TABLE access to database

当我尝试从TeradataView导入表时，我遇到了Sqoop的Teradata连接器问题。我只能访问View。但不知何故，当sqoop作业开始时，它试图在我正在访问的TeradataDB中创建一个表，但无权在该DB/schema中创建任何表我低于错误13/05/3103:40:12ERRORtool.ImportTool:EncounteredIOExceptionrunningimportjob:com.teradata.hadoop.exception.TeradataHadoopSQLException:com.teradata.jdbc.jdbc_4.util.JDBCExc

Teradata database java apache hadoop hdfs sqoop

hadoop - Impala 可以从表中执行 COUNT() 但不能执行 SELECT

我遇到了一个奇怪的Impala行为。我从复制到Hadoop集群中的.csv文件在HUE中创建了一个表。我可以通过Metastore管理器在HUE中正确导航表格，但我无法在Impala中运行以下查询，因为它会抛出IllegalStateException:null异常:select*frommy_db.my_tablelimit100;奇怪的是下面的命令检索到正确的行数:selectcount(*)frommy_db.my_table; 最佳答案错误是由无效类型引起的。并不是所有的Hive数据类型在Impala中都受支持。Impal

hadoop Impala section code hive

user-interface - Hue 安装在 vanilla hadoop 上

有人试过在ApacheHadoop上安装HUE吗？我们正在使用hadoop0.20.2，我想知道在我投入时间之前是否有人成功使用它。任何指针将不胜感激。最佳答案看来不可能...http://getsatisfaction.com/cloudera/topics/issue_with_cloudera_plugin_loading_in_hadoop 关于user-interface-Hue安装在vanillahadoop上，我们在StackOverflow上找到一个类似的问题：

user-interface interface section cloudera hadoop installation

mysql - Hive count(*) 比实际的 SQL 表多显示一行

我使用命令sqoopimport使用sqoopimport从sql中导入了一个表。在从Hive中执行selectcount(*)时，我得到的行数为231743但实际的SQL表有231742行。为什么我要为这张表多一行？我导入了另外2个具有大量数据的类似表，并且正在获取准确的计数。但是这个特定的表在配置单元中给了我额外的一行。这是为什么？:-oPS:我在sqoop导入命令中包含了--hive-drop-import-delims提前致谢:)更新:好像我在表中有重复的条目。它是在导入过程中生成的。任何人都知道为什么？:) 最佳答案好的

mysql count section sqoop 中包 hadoop hive

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询？

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中，我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

amp Hive java code hadoop sql

hadoop - DSE 4.0.1 : hive count different than cassandra count

我们正在运行DatastaxEnterprise4.0.1，在向Cassandra中插入行然后在配置单元中查询COUNT(1)时遇到了一个非常奇怪的问题。设置:DSE4.0.01、Cassandra2.0、Hive、全新集群。向Cassandra中插入10,000行，然后:cqlsh:pageviews>selectcount(1)frompageviews_v1limit100000;count-------10000(1rows)cqlsh:pageviews>但是来自Hive:hive>selectcount(1)frompageviews_v1limit100000;Total

count cassandra 39 pageviews hadoop amazon-ec2 hive datastax-enterprise

hadoop - pig 脚本: count returns 0 on null field

我有一个pig脚本，它通过json的“公司”部分加载文件。当我执行计数时，如果文件中缺少域(或为空)，则计数为0。我怎样才能将它分组为空字符串并仍然对其进行计数？文件示例:{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test1company"}}{"company":{"domain":"test1.com","name":"test2company"}}{"company":{"domain":"test2.com","name":"t

returns hadoop 34 company test scripting count apache-pig mortar

shell - 错误 : Permission denied: '/user'

当我尝试将AWSS3存储桶复制到HDFS时出现错误:Permissiondenied:'/user'下面是我的脚本awss3syncs3://folder1.folder2/file.json/user/hive/warehouse/my.db/json_table请帮忙! 最佳答案 S3sync无法识别HDFS路径。要么使用，hadoopdistcp在配置所有与S3相关的properties之后.S3DistCp，这需要s3distcp.jar。如果文件很小，sync文件到localpath和copyFromLocal到HDFS。

Permission amp code section hadoop shell amazon-s3 hive batch-processing

201 202 203204205 206 207