count_table

hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ？

来自MongoDB的背景，我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。考虑在Cassandra中对同一概念建模，是否值得做同样的事情并根据时间段创建多个表？所以也许每周一次。是否有任何性能提升？由于我对Hadoop集成的研究，我也问这个问题，我可能只想映射/减少特定几周内有值(value)的数据，而不是所有数据，据我所知，这是最好的方法隔离我们要映射的数据。在此先感谢您对此的任何意见。最佳答案这不是必须的。但是，请务必注意，您不应在Cassandra中使用二级索引，您应该对数据

apache - Hbase 元数据错误 "tables no found"

我在hbase(hdfs)表中有一些数据，我将其复制到我的本地文件系统。然后在我的第二台机器上，我使用copyFromLocalhadoop命令将数据从本地复制到hdfs。现在，当我在hbase中(在第二台机器上)运行命令“list”时。显示没有表。我将表复制到hdfs中的一个目录中，该目录是hbase的数据目录，因此该表应该出现在hbase中。问题出在哪里？在两台机器上，hbase和hadoop的版本相同。如何将hbase表从一个集群复制到第二个集群？最佳答案已经有一些工具可用于管理此类任务(全部记录在此处:http://hb

amp apache hbase org hadoop hdfs

hadoop - Hive count(*) 查询未调用 mapreduce

我在配置单元中有外部表，我正在尝试运行selectcount(*)fromtable_name查询，但查询立即返回并给出我认为已经存储的结果。查询返回的结果不正确。有没有办法强制执行mapreduce作业并使查询每次都执行。注意:并非所有外部表都遵循此行为，但其中一些外部表遵循此行为。使用的版本:Hive0.14.0.2.2.6.0-2800，Hadoop2.6.0.2.2.6.0-2800(Hortonworks) 最佳答案经过一些发现，我找到了一种方法，可以启动MR来计算orc表上的记录数。ANALYZETABLE'表名'PA

mapreduce hadoop section strong 此行 hive

mysql - 插入导致异常 ParseException 行 1 :12 missing TABLE at 'table_name' near '<EOF>' 的 Select 命令

我刚接触hadoop和hive2天。所以，我的理解是非常基础的。我有一个可能很愚蠢的问题。问题:我有一个配置单元外部表ABC，并创建了一个类似于ABC_TEST表的示例测试表。我的目标是根据select子句将ABC的某些内容复制到ABC_TEST。所以我使用以下命令创建了ABC_TEST:CREATETABLEABC_TESTLIKEABC;问题是:1)此ABC_TEST不是外部表。2)使用Desc命令，ABC_TEST的LOCATION内容类似于hdfs://somepath/somdbname.db/ABC_TEST-->Oncommand"hadoopfs-lshdfs://so

amp 39 ABC_TEST ABC TEST mysql hadoop hive hdfs

hadoop - 使用 spark/scala，我使用 saveAsTextFile() 到 HDFS，但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用，如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

saveAsTextFile hadoop code temp_table temp hive hdfs hiveql

hadoop - 谷歌大查询 : Incompatible table partitioning specification

从未分区的临时表向按天分区的最终表提交复制作业时，我收到了cause:java.io.IOException:ErrorMessage:Incompatibletablepartitioningspecification.Expectspartitioningspecificationinterval(type:day),butinputpartitioningspecificationisnone;那么复制作业到分区表的输入表是否有任何限制，如何克服这些限制？使用Load作业在hadoopbigquery-connector类中创建临时表。而JobConfigurationLoad根

specification Incompatible section partitioning hadoop google-api google-bigquery

sql-server - Sqoop import-all-tables 命令的问题

我正在尝试使用Sqoop将多个SQLServer数据库中的所有表导入HDFS。我正在使用ClouderaCDH5.7。所以我输入以下命令:sqoopimport-all-tables--connect"jdbc:sqlserver://X.X.X.X:1433;database=FEPDB"--usernameXXXXX--passwordXXXXX--hive-import它运行成功，但“FEPDB”数据库中的所有表都没有被导入。我没有在HDFS的配置单元目录中找到它们，也没有在列出Hive中存在的所有表时找到它们。所以我尝试将所有表导入HDFS中的一个目录，然后创建hive表。我给

import-all-tables sql-server section import hadoop sqoop cloudera-cdh

sql - 计算 SHOW TABLE EXTENDED 返回的结果集中的行

我需要检查给定的表是否已存在于Hadoop数据库中。为此，我使用Hive过程SHOWTABLEEXTENDEDINdb1LIKE'table1';它运行良好，如果表存在则返回多行。但在我的例子中，我必须计算结果集中的行数，或者在结果集为空的情况下返回零，否则返回1。我无法通过JDBC与数据库交互，因此我必须准确计算语句中的行数。最佳答案混合一些bash，hive-S-e'showtableextendedindatabaselike"tablename";'|grep'tableName'|wc-l如果不需要额外的信息，可以省略

EXTENDED TABLE code section 多行 sql hadoop hive resultset

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport

hadoop tables spark lt gt apache-spark hive metastore hivecontext

hadoop - MAX(Count) 函数 apache pig latin

这个下面的程序我正尝试在ApachePig中按原样和非结构化数据执行它i)我有包含街道名称、城市和州的数据集:ii)按州分组iii)我在数据集中获取COUNT(*)个状态现在我的o/p将类似于statename,count===>该状态在数据集中可用的时间程序:realestate=LOADDATAusingpigstorage(',')as(street:string,citystring,statestring);A=GROUPrealestatebystate;B=FOREACHAGENERATEgroup,count(*)O/P会像CA,14washington,20现在我需要

hadoop apache section code realestate apache-pig hadoop-streaming hadoop-partitioning

211 212 213214215 216 217