草庐IT

CASSANDRA

全部标签

hadoop - Cassandra 与 Hadoop 的集成

我是Cassandra的新手。我发布这个问题是因为不同的文档提供了关于将Hive与Cassandra集成的不同细节,我无法找到github页面。我在我的3节点HDP2.0集群的其中一个数据节点中安装了单节点Cassandra2.0.2(Datastax社区版)。我无法使用配置单元通过“org.apache.hadoop.hive.cassandra.cql3.CqlStorageHandler”访问Cassandra。我从org.apache.hadoop.hive.ql.exec.DDLTask收到错误“返回代码1”。org.apache.hadoop.hive.ql.metadat

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前,我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录,在3节点集群中需要8多个小时才能读取),并且由于存在原生二进制协议(protocol),我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现?如果

java - 使用来自 hadoop reduce 的复合主键插入到 cassandra 表

我正在使用ApacheHadoop、MapReduce和Cassandra运行一个MapReduce作业,该作业从一个Cassandra表中读入,然后输出到另一个Cassandra表。我有一些作业输出到具有单个主键的表。例如,这个用于计算每种单词数量的表有一个键。CREATETABLEword_count(wordtext,countint,PRIMARYKEY(text))WITHCOMPACTSTORAGE;关联的reduce类看起来有点像这样:publicstaticclassReducerToCassandraextendsReducer>{publicvoidreduce(T

hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ?

来自MongoDB的背景,我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。考虑在Cassandra中对同一概念建模,是否值得做同样的事情并根据时间段创建多个表?所以也许每周一次。是否有任何性能提升?由于我对Hadoop集成的研究,我也问这个问题,我可能只想映射/减少特定几周内有值(value)的数据,而不是所有数据,据我所知,这是最好的方法隔离我们要映射的数据。在此先感谢您对此的任何意见。 最佳答案 这不是必须的。但是,请务必注意,您不应在Cassandra中使用二级索引,您应该对数据

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境,i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告,根据其基本原理,完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字,发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用,但是,我不明白它最终是否使用Hadoop。我会有很多报告,至少需要索引和分组。但是我不想使用额外的表来增加开销。而且,我是.Net(而非Java)开发人员,我的应用程序也基于.NetFramework。

hadoop - 使用 NIFI 从 Kafka 插入到 Cassandra

我需要将巨大的CSV文件从Kafka主题读取到Cassandra。我配置了ApacheNifi实现相同。流量:用户无法控制Nifi设置。他只指定了CSV所在的URL。Web应用程序将URL写入kafka主题。Nifi获取文件并插入到Cassandra中。我如何知道Nifi已将CSV文件中的所有行插入到Cassandra中?我需要让用户知道插入已完成。如有任何帮助,我们将不胜感激。 最佳答案 我找到了解决方案。使用MergeContent处理器,所有具有相同“fragment.identifier”值的FlowFiles将被组合在一起

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群,我可以使用Giraph吗?目前,我正在使用GraphX,并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra,这是否可能? 最佳答案 几年前我对Giraph的使用经验有限,而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易,至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见,例如,它在DoubleWritable和Text的类路径中需要Hadoop,但它对Hadoop集

java - 尽管配置相同,但 Cassandra 集群 : some nodes reporting "no other nodes seen",

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭10年前。我正在尝试设置一个8节点开发集群。我对配置做了最小的改动。我将其中一个节点设置为所有节点上的种子。3个节点连接到种子,但还有4个不连接。我检查过所有非连接节点都可以访问种子的IP(它们甚至在同一子网上)。我的网络没问题。我验证了所有IP都是正确的。一个非连接节点显然访问了种子:INFO17:30:16,272StartingMessagingServic

java - 从 hadoop 作业写入 Cassandra 时出现 ClassCast 错误

我正在运行一个hadoop作业并尝试将输出写入Cassandra。我收到以下异常:java.lang.ClassCastException:org.apache.hadoop.io.Textcannotbecasttojava.nio.ByteBufferatorg.apache.cassandra.hadoop.ColumnFamilyRecordWriter.write(ColumnFamilyRecordWriter.java:60)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.write(Reduce