草庐IT

Cassandra-cli

全部标签

hadoop - 如何将数据从 Cassandra 导入到 Hadoop 文件系统

我想知道如何将数据从Cassandra导入Hadoop文件系统,以及如何定期持续进行(即当Cassandra数据库发生变化或新数据插入Cassandra时如何我们可以检测到变化并将数据迁移到HDFS(Hadoop文件系统)吗? 最佳答案 您有多种选择可以做到这一点。您可以编写顺序程序或ma​​preduce作业或pig等来实现自动化,您也有多种选择。你可以有一个cron来为你做这件事,或者如果你想让你的工作流程更复杂,你可以使用Oozie(一个工作流引擎)来根据你想要的任何标准安排你的工作。

hadoop - 所有列族都没有从 Cassandra 键空间映射到 Hive 数据库

我正在使用与hadoophive集成的cassandra。我的键空间测试中有这两个列族-1)CF_1createCOLUMNFAMILYCF_1(keyuuidprimarykey,timevarchar,typevarchar);2)CF_2createCOLUMNFAMILYCF_2(idvarchar,timetimestamp,datavarchar,primarykey(id,time));因此配置单元仅将CF_1从我的cassandra键空间映射到配置单元表。我认为其他列族(CF_2)未映射,因为它具有复合主键。要么我认为目前在DataStax企业套件中不支持具有复合键的C

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程,使用MapReduce创建摘要并写回不同的键空间。从单个节点开始,一切都按我预期的那样工作,但是当移动到多节点时,我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行,每个任务跟踪器只会查询本地C

hadoop - 从不同目录调用 hive cli 时找不到表

我遇到了Hive表的一个奇怪问题。我在环境中设置了HIVE_HOME,它也在我的搜索路径中,因此我可以直接调用hive。现在我从一个目录调用hive让我们说/a/b/c并创建一些表。我可以看到表格。现在我切换到一个目录,例如/a/b并从那里调用hive。这是问题部分。要么我看不到表格,要么我得到这个错误hive>showtables;FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'metastore_db',seethenextexceptionfordetails.Ne

hadoop - Cassandra 与 Hadoop 的集成

我是Cassandra的新手。我发布这个问题是因为不同的文档提供了关于将Hive与Cassandra集成的不同细节,我无法找到github页面。我在我的3节点HDP2.0集群的其中一个数据节点中安装了单节点Cassandra2.0.2(Datastax社区版)。我无法使用配置单元通过“org.apache.hadoop.hive.cassandra.cql3.CqlStorageHandler”访问Cassandra。我从org.apache.hadoop.hive.ql.exec.DDLTask收到错误“返回代码1”。org.apache.hadoop.hive.ql.metadat

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前,我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录,在3节点集群中需要8多个小时才能读取),并且由于存在原生二进制协议(protocol),我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现?如果

java - 使用来自 hadoop reduce 的复合主键插入到 cassandra 表

我正在使用ApacheHadoop、MapReduce和Cassandra运行一个MapReduce作业,该作业从一个Cassandra表中读入,然后输出到另一个Cassandra表。我有一些作业输出到具有单个主键的表。例如,这个用于计算每种单词数量的表有一个键。CREATETABLEword_count(wordtext,countint,PRIMARYKEY(text))WITHCOMPACTSTORAGE;关联的reduce类看起来有点像这样:publicstaticclassReducerToCassandraextendsReducer>{publicvoidreduce(T

hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ?

来自MongoDB的背景,我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。考虑在Cassandra中对同一概念建模,是否值得做同样的事情并根据时间段创建多个表?所以也许每周一次。是否有任何性能提升?由于我对Hadoop集成的研究,我也问这个问题,我可能只想映射/减少特定几周内有值(value)的数据,而不是所有数据,据我所知,这是最好的方法隔离我们要映射的数据。在此先感谢您对此的任何意见。 最佳答案 这不是必须的。但是,请务必注意,您不应在Cassandra中使用二级索引,您应该对数据

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境,i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告,根据其基本原理,完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字,发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用,但是,我不明白它最终是否使用Hadoop。我会有很多报告,至少需要索引和分组。但是我不想使用额外的表来增加开销。而且,我是.Net(而非Java)开发人员,我的应用程序也基于.NetFramework。