CASSANDRA_草庐IT

hadoop - 针对 cassandra 使用 hadoop mapreduce 的示例代码

我一直在尝试获取运行Cassandra时附带的MapReduce示例代码，但出现运行时错误。源代码:importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.*;importjava.util.Map.Entry;importorg.apache.cassandra.hadoop.cql3.CqlConfigHelper;importorg.apache.cassandra.hadoop.cql3.CqlOutputFormat;importorg.slf4j.Logger;importorg.slf4j.L

在Hadoop集群中，我们要安装Cassandra。是安装Cassandra的方法，这样我就可以将数据直接插入到hdfs中。例如有了Hbase，就不得不提到hbase-site.xml下的hbase.rootdir了。hbase.rootdirhdfs://:/hbase因此，有了一个主服务器和n个区域服务器，我们就能够将Hbase用作多节点设置。注意:说明可在http://hbase.apache.org/上找到同样，是否可以将Cassandra安装为多节点设置。(类似于hbase设置)是否可以在cassandra.yaml下的data_file_directories参数中提及hd

mysql - 从 Cassandra 中提取数据以加载到关系数据库中的机制

我们使用Cassandra作为我们应用程序的主要数据存储，该应用程序收集大量数据并需要大量存储和非常快的写入吞吐量。我们计划定期提取这些数据并加载到关系数据库(如mySQL)中。存在哪些可以扩展到每天数亿条记录的提取机制？Informatica等昂贵的第三方ETL工具不是我们的选择。到目前为止，我的网络搜索只显示了带有Pig或Hive作为选项的Hadoop。然而，作为这个领域的新手，我不确定它们的扩展性如何，以及它们在运行时会给Cassandra集群本身带来多少负载？还有其他选择吗？最佳答案你应该看看sqoop，它与Cassan

hadoop - 使用 Spark 通过 Cloudera Hadoop 从 Cassandra 读取数据

范围是从HDFS读取，在Spark中过滤并将结果写入Cassandra。我正在使用SBT打包和运行。问题来了:从HDFS读取到Spark需要在我的sbt构建文件中添加以下行。libraryDependencies+="org.apache.hadoop"%"hadoop-client"%"2.0.0-cdh4.5.0"但是，通过读写CassandravalcasRdd=sc.newAPIHadoopRDD(job.getConfiguration(),classOf[ColumnFamilyInputFormat],classOf[ByteBuffer],classOf[SortedM

hadoop - 如何将 Cassandra 与 Hadoop 集成

我正在尝试设置集群Hadoop和Cassandra。我阅读过的许多网站都使用了很多我正在慢慢掌握的词汇和概念，但我仍然需要一些帮助。我有3个节点。我想在所有3个上设置Hadoop和Cassandra。我分别熟悉Hadoop和Cassandra，但它们如何一起工作以及如何配置它们一起工作？另外，如何设置一个节点专用于分析等？到目前为止，我已经修改了我的hadoop-env.sh以指向Cassandra库。我已经把它放在我所有的节点上了。那是对的吗？我还需要做什么以及如何运行它-首先启动Hadoop集群或Cassandra？最后一个小问题:我是直接连接到Cassandra还是从我的Java

Hadoop 和 Cassandra 集成如何

我已经在集群上设置了Cassandra。我在同一个集群上设置了Hadoop。他们俩都可以单独工作。除了架构，如何整合两者？哪些配置应该放在哪些.xml中？根据我阅读的少量文档，我认为我需要一个提供cfs:///方案的类，对吧？CFS应该替代HDFS吧？我设法找到的所有文档都过于抽象、过时或两者兼而有之，即使是官方文档也是如此。我正在使用Casandra2.1.0和Hadoop2.5.1。最佳答案请。检查附加的链接。希望这会有所帮助。CassandraHadoopIntegration还有请。查看本书第12章CasandraDef

hadoop - 具有多个数据中心的 Cassandra 中的副本放置逻辑

当写入以一致性EACH_QUORUM和复制4与2个数据中心DC1和DC2副本放置3在DC1和1在DC2中执行时，哪个类选择第二个和第三个副本应该驻留的节点？告密者是GossipingPropertyFileSnitch和NetworkTopologyStrategy。客户端使用FileSystem.create创建一个新文件并对其执行写入操作。第一个副本将根据token和行键哈希转到节点。第二个和第三个副本在DC1和DC2中去了哪里？最佳答案一致性级别与放置策略没有任何关系。很简单，在向客户端报告成功或失败之前，应该向协调器报告

hadoop - PiG + Cassandra + Hadoop

我在Cassandra(3.7)集群上安装了Hadoop(2.7.2)。我对使用HadoopMapReduce没有任何问题。同样，我在CQLSH中创建表和键空间也没有问题。但是，我一直在尝试通过hadoop安装PIG，以便访问Cassandra中的表。(PIG的安装非常好)这就是我遇到问题的地方。我访问过很多网站，大多数要么是针对Cassandra的过时版本，要么就是含糊不清。我从该网站收集到的一件事是，我们可以使用CqlStorage/CqlNativeStorage加载访问pig中的cassandra表。但是，在最新版本中，似乎已删除此支持(自2015年起)。现在我的问题是，是否有

hadoop - Hector 的批处理 Mutation 与使用 Hadoop 作业将数据加载到 Cassandra 中？

有人可以强调Hector的批处理变异和使用Hadoop作业将数据加载到Cassandra的优缺点吗？我知道在Hector中您可以执行以下操作:mutator.addInsertion(...);mutator.execute();在Hadoop中，您可以使用MR作业将数据加载到Cassandra。我正在寻找使用或不使用它们的原因。谢谢! 最佳答案如果数据源当前不在hadoop(或hbase)中，我建议只使用如上所述的Mutator的多线程加载器来减少移动部件的数量。这个要点是过时的，但方法是相似的:https://gist.git

hadoop - 是否有连接 Cassandra 和 Hadoop 的权威指南？

我在网上搜索了连接Hadoop和Cassandra的指南，甚至“Cassandra:权威指南”也没有提供任何指针，声称它“超出了本书的范围”。因此，是否有任何隐藏的权威指南？谢谢。:) 最佳答案这里有一些文档:http://wiki.apache.org/cassandra/HadoopSupport尽管如此，我不确定我是否会将其称为权威指南。如果您已经设置了cassandra集群和hadoop集群，那么最好的办法是从那里开始，然后提出问题(irc、邮件列表等)。如果您是cassandra或hadoop的新手，我会先分别熟悉这些项