草庐IT

count_table

全部标签

apache-spark - 简单的 rdd.count() 操作的 java.lang.OutOfMemoryError

我在对hdfs上的大约55个文件和总共1B条记录进行简单计数操作时遇到了很多麻烦。spark-shell和PySpark都因OOM错误而失败。我正在使用yarn、MapR、Spark1.3.1和hdfs2.4.1。(它在本地模式下也失败了。)我尝试遵循调整和配置建议,向执行程序投入越来越多的内存。我的配置是conf=(SparkConf().setMaster("yarn-client").setAppName("pyspark-testing").set("spark.executor.memory","6g").set("spark.driver.memory","6g").set

hadoop - CREATE TABLE 命令在 Hive 查询语言中不起作用

当我尝试在配置单元中创建表时收到以下错误消息。知道为什么会这样吗?hive>createtablea(xint);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:FordirectMetaStoreDBconnections,wedon'tsupportretriesattheclientlevel.)日志如下:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:Duplica

sql - Hive通过 ‘distinct’子句给出一条记录,但是 ‘count’是0

看看这些。0:jdbc:hive2>selectdistinctA_COLfromA_TABLEwhereA_COL='1999-05-04';+-------------+--+|A_COL|+-------------+--+|1999-05-04|+-------------+--+1rowselected(6.127seconds)0:jdbc:hive2>selectcount(*)fromA_TABLEwhereA_COL='1999-05-04';+------+--+|_c0|+------+--+|0|+------+--+1rowselected(4.206seco

hadoop - 在 Cloudera VM 中将数据从 HDFS 加载到 Hive Table

当使用ClouderaVM时,您如何访问HDFS中的信息?我知道没有到HDFS的直接路径,但我也不知道如何动态访问它。通过HiveCLI创建Hive表后,我尝试从位于HDFS中的文件加载一些数据:loaddatainpath'/test/student.txt'intotablestudent;但是我得到了这个错误:FAILED:SemanticExceptionLine1:17Invalidpath''/test/student.txt'':Nofilesmatchingpathhdfs://quickstart.cloudera:8020/test/student.txt我还尝试将

mysql - 什么更好 - 多张小 table 还是一张大 table ?

我有一个数据库,可以存储有关个人的个人资料。这些人有大约50个可能的领域。有些是常见的东西,如名字、姓氏、电子邮件、电话号码。其他是爱好、技能、兴趣等有些是高度、体重、肤色。系统在不同时间使用这些组中的每一个。就能够通过数据库进行协商而言,我更喜欢有7个表,每个表大约有8个字段。什么是最佳实践?编辑:数据将用于搜索引擎,用于查找配置文件匹配项。这会影响我正在做的事情吗? 最佳答案 这很难说,并基于应用程序的需求。我会说调查DatabaseNormalization因为它将向您展示如何规范化数据库,并且它应该阐明您希望将哪些内容分离到

mysql - 什么更好 - 多张小 table 还是一张大 table ?

我有一个数据库,可以存储有关个人的个人资料。这些人有大约50个可能的领域。有些是常见的东西,如名字、姓氏、电子邮件、电话号码。其他是爱好、技能、兴趣等有些是高度、体重、肤色。系统在不同时间使用这些组中的每一个。就能够通过数据库进行协商而言,我更喜欢有7个表,每个表大约有8个字段。什么是最佳实践?编辑:数据将用于搜索引擎,用于查找配置文件匹配项。这会影响我正在做的事情吗? 最佳答案 这很难说,并基于应用程序的需求。我会说调查DatabaseNormalization因为它将向您展示如何规范化数据库,并且它应该阐明您希望将哪些内容分离到

hadoop - Elasticsearch:数周的聚合 min_doc_count 不起作用

我对interval=week和min_doc_count=0进行了以下聚合{"aggs":{"scores_by_date":{"date_histogram":{"field":"date","format":"yyyy-MM-dd","interval":"week","min_doc_count":0}}}和日期过滤器从Jan-01-2015到Feb-23-2015{"range":{"document.date":{"from":"2015-01-01","to":"2015-02-23"}}}我预计Elasticsearch会填满七个星期,即使是空的并返回桶,但最终只有一个

hadoop - yarn : maximum parallel Map task count

Hadoop权威指南中提到了以下内容"Whatqualifiesasasmalljob?Bydefaultonethathaslessthan10mappers,onlyonereducer,andtheinputsizeislessthanthesizeofoneHDFSblock."但是在YARN上执行作业之前,它如何计算作业中没有映射器?在MR1中,映射器的数量取决于编号。输入split。YARN也一样吗?在YARN容器中是灵活的。那么有没有什么方法可以计算可以在给定集群上并行运行的最大映射任务数(某种严格的上限,因为它会让我粗略地了解我可以并行处理多少数据?)?

hadoop word count 并获取最大出现的单词

我是hadoop的新手。我已经完成了字数统计,现在我想做一个修改。我想获取文本文件中出现次数最多的单词。如果,正常的字数统计程序给出输出:a1b4c2我想编写只给我输出的程序b4这里是我的reducer函数::publicstaticclassReduceextendsReducer{intmax_sum=0;Textmax_occured_key;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableva

mysql - mySQL/SQL 中的 count(0)、count(1).. 和 count(*) 有什么区别?

我最近在一次采访中被问到这个问题。我在mySQL中尝试了这个,并得到了相同的结果(最终结果)。All给出了该特定表中的行数。谁能解释它们之间的主要区别。 最佳答案 没什么,除非您在表格中指定字段或在括号中指定表达式而不是常量值或*让我给你一个详细的答案。Count将为您提供给定字段的非空记录号。假设您有一个名为A的表select1fromAselect0fromAselect*fromA都将返回相同数量的记录,即表A中的行数。但输出仍然不同。如果表中有3条记录。以X和Y作为字段名select1fromAwillgiveyou111s