CASSANDRA

hadoop - Cassandra 与 Hadoop 的集成

我是Cassandra的新手。我发布这个问题是因为不同的文档提供了关于将Hive与Cassandra集成的不同细节，我无法找到github页面。我在我的3节点HDP2.0集群的其中一个数据节点中安装了单节点Cassandra2.0.2(Datastax社区版)。我无法使用配置单元通过“org.apache.hadoop.hive.cassandra.cql3.CqlStorageHandler”访问Cassandra。我从org.apache.hadoop.hive.ql.exec.DDLTask收到错误“返回代码1”。org.apache.hadoop.hive.ql.metadat

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前，我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录，在3节点集群中需要8多个小时才能读取)，并且由于存在原生二进制协议(protocol)，我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现？如果

自定 map-reduce section apache hadoop java mapreduce cassandra datastax-java-driver

java - 使用来自 hadoop reduce 的复合主键插入到 cassandra 表

我正在使用ApacheHadoop、MapReduce和Cassandra运行一个MapReduce作业，该作业从一个Cassandra表中读入，然后输出到另一个Cassandra表。我有一些作业输出到具有单个主键的表。例如，这个用于计算每种单词数量的表有一个键。CREATETABLEword_count(wordtext,countint,PRIMARYKEY(text))WITHCOMPACTSTORAGE;关联的reduce类看起来有点像这样:publicstaticclassReducerToCassandraextendsReducer>{publicvoidreduce(T

cassandra hadoop code ByteBufferUtil java mapreduce composite-key

hadoop - 在 Cassandra 中将一张大 table 分成多个小 table ？

来自MongoDB的背景，我们倾向于基于周将数据的摄取分成多个集合(其中包含相同类型的数据)。这完全取决于我们索引的性能。考虑在Cassandra中对同一概念建模，是否值得做同样的事情并根据时间段创建多个表？所以也许每周一次。是否有任何性能提升？由于我对Hadoop集成的研究，我也问这个问题，我可能只想映射/减少特定几周内有值(value)的数据，而不是所有数据，据我所知，这是最好的方法隔离我们要映射的数据。在此先感谢您对此的任何意见。最佳答案这不是必须的。但是，请务必注意，您不应在Cassandra中使用二级索引，您应该对数据

table Cassandra section https hadoop

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境，i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

数据中心 cassandra section hadoop cassandra-2.0

hadoop - 管理报告，当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者？

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告，根据其基本原理，完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字，发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用，但是，我不明白它最终是否使用Hadoop。我会有很多报告，至少需要索引和分组。但是我不想使用额外的表来增加开销。而且，我是.Net(而非Java)开发人员，我的应用程序也基于.NetFramework。

Cassandra 两者 strong section hadoop solr apache-spark apache-hive

hadoop - 使用 NIFI 从 Kafka 插入到 Cassandra

我需要将巨大的CSV文件从Kafka主题读取到Cassandra。我配置了ApacheNifi实现相同。流量:用户无法控制Nifi设置。他只指定了CSV所在的URL。Web应用程序将URL写入kafka主题。Nifi获取文件并插入到Cassandra中。我如何知道Nifi已将CSV文件中的所有行插入到Cassandra中？我需要让用户知道插入已完成。如有任何帮助，我们将不胜感激。最佳答案我找到了解决方案。使用MergeContent处理器，所有具有相同“fragment.identifier”值的FlowFiles将被组合在一起

Cassandra hadoop section strong apache-kafka hortonworks-data-platform apache-nifi

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群，我可以使用Giraph吗？目前，我正在使用GraphX，并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra，这是否可能？最佳答案几年前我对Giraph的使用经验有限，而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易，至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见，例如，它在DoubleWritable和Text的类路径中需要Hadoop，但它对Hadoop集

Cassandra hadoop section code Giraph apache-spark

java - 尽管配置相同，但 Cassandra 集群 : some nodes reporting "no other nodes seen",

这个问题不太可能帮助任何future的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visitthehelpcenter.关闭10年前。我正在尝试设置一个8节点开发集群。我对配置做了最小的改动。我将其中一个节点设置为所有节点上的种子。3个节点连接到种子，但还有4个不连接。我检查过所有非连接节点都可以访问种子的IP(它们甚至在同一子网上)。我的网络没问题。我验证了所有IP都是正确的。一个非连接节点显然访问了种子:INFO17:30:16,272StartingMessagingServic

nodes Cassandra section blockquote 种子 java hadoop

java - 从 hadoop 作业写入 Cassandra 时出现 ClassCast 错误

我正在运行一个hadoop作业并尝试将输出写入Cassandra。我收到以下异常:java.lang.ClassCastException:org.apache.hadoop.io.Textcannotbecasttojava.nio.ByteBufferatorg.apache.cassandra.hadoop.ColumnFamilyRecordWriter.write(ColumnFamilyRecordWriter.java:60)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.write(Reduce

时出 Cassandra hadoop java apache

36 37 383940 41 42