草庐IT

Cassandra-cli

全部标签

hadoop - 使用 Spark 通过 Cloudera Hadoop 从 Cassandra 读取数据

范围是从HDFS读取,在Spark中过滤并将结果写入Cassandra。我正在使用SBT打包和运行。问题来了:从HDFS读取到Spark需要在我的sbt构建文件中添加以下行。libraryDependencies+="org.apache.hadoop"%"hadoop-client"%"2.0.0-cdh4.5.0"但是,通过读写CassandravalcasRdd=sc.newAPIHadoopRDD(job.getConfiguration(),classOf[ColumnFamilyInputFormat],classOf[ByteBuffer],classOf[SortedM

hadoop - 如何将 Cassandra 与 Hadoop 集成

我正在尝试设置集群Hadoop和Cassandra。我阅读过的许多网站都使用了很多我正在慢慢掌握的词汇和概念,但我仍然需要一些帮助。我有3个节点。我想在所有3个上设置Hadoop和Cassandra。我分别熟悉Hadoop和Cassandra,但它们如何一起工作以及如何配置它们一起工作?另外,如何设置一个节点专用于分析等?到目前为止,我已经修改了我的hadoop-env.sh以指向Cassandra库。我已经把它放在我所有的节点上了。那是对的吗?我还需要做什么以及如何运行它-首先启动Hadoop集群或Cassandra?最后一个小问题:我是直接连接到Cassandra还是从我的Java

Hadoop 和 Cassandra 集成如何

我已经在集群上设置了Cassandra。我在同一个集群上设置了Hadoop。他们俩都可以单独工作。除了架构,如何整合两者?哪些配置应该放在哪些.xml中?根据我阅读的少量文档,我认为我需要一个提供cfs:///方案的类,对吧?CFS应该替代HDFS吧?我设法找到的所有文档都过于抽象、过时或两者兼而有之,即使是官方文档也是如此。我正在使用Casandra2.1.0和Hadoop2.5.1。 最佳答案 请。检查附加的链接。希望这会有所帮助。CassandraHadoopIntegration还有请。查看本书第12章CasandraDef

hadoop - 具有多个数据中心的 Cassandra 中的副本放置逻辑

当写入以一致性EACH_QUORUM和复制4与2个数据中心DC1和DC2副本放置3在DC1和1在DC2中执行时,哪个类选择第二个和第三个副本应该驻留的节点?告密者是GossipingPropertyFileSnitch和NetworkTopologyStrategy。客户端使用FileSystem.create创建一个新文件并对其执行写入操作。第一个副本将根据token和行键哈希转到节点。第二个和第三个副本在DC1和DC2中去了哪里? 最佳答案 一致性级别与放置策略没有任何关系。很简单,在向客户端报告成功或失败之前,应该向协调器报告

hadoop - Apache Apex CLI 命令中 Shutdown-app 和 kill-app 的区别

谁能帮我理解,ApacheAPEXCLI命令中的Shutdown-app和kill-app有什么区别? 最佳答案 Shutdown-app会调用各个Operator的tearDown()方法并等待一段时间让Operator正常关闭。然而,kill-app对所有运算符(operator)来说就像force-kill。因此,这将立即停止应用程序。但是,运营商不会有任何机会进行清理事件。在这两种情况下,YARN都会在应用关闭后释放分配给该应用的资源。 关于hadoop-ApacheApexCL

hadoop - PiG + Cassandra + Hadoop

我在Cassandra(3.7)集群上安装了Hadoop(2.7.2)。我对使用HadoopMapReduce没有任何问题。同样,我在CQLSH中创建表和键空间也没有问题。但是,我一直在尝试通过hadoop安装PIG,以便访问Cassandra中的表。(PIG的安装非常好)这就是我遇到问题的地方。我访问过很多网站,大多数要么是针对Cassandra的过时版本,要么就是含糊不清。我从该网站收集到的一件事是,我们可以使用CqlStorage/CqlNativeStorage加载访问pig中的cassandra表。但是,在最新版本中,似乎已删除此支持(自2015年起)。现在我的问题是,是否有

hadoop - 如何从配置单元 cli 运行配置单元脚本

我现在有配置单元脚本custsales.hql,我想从配置单元cli运行它hive(pract5)>run/user/training/hdfs_location/custsales.hql但它不执行。请指导。我知道我们可以从命令行运行它$hive-f/home/training/local_location/custsales.hql但这不是我的要求。 最佳答案 使用sourcepath/to/script命令。 关于hadoop-如何从配置单元cli运行配置单元脚本,我们在Stack

hadoop - Hector 的批处理 Mutation 与使用 Hadoop 作业将数据加载到 Cassandra 中?

有人可以强调Hector的批处理变异和使用Hadoop作业将数据加载到Cassandra的优缺点吗?我知道在Hector中您可以执行以下操作:mutator.addInsertion(...);mutator.execute();在Hadoop中,您可以使用MR作业将数据加载到Cassandra。我正在寻找使用或不使用它们的原因。谢谢! 最佳答案 如果数据源当前不在hadoop(或hbase)中,我建议只使用如上所述的Mutator的多线程加载器来减少移动部件的数量。这个要点是过时的,但方法是相似的:https://gist.git

hadoop - 是否有连接 Cassandra 和 Hadoop 的权威指南?

我在网上搜索了连接Hadoop和Cassandra的指南,甚至“Cassandra:权威指南”也没有提供任何指针,声称它“超出了本书的范围”。因此,是否有任何隐藏的权威指南?谢谢。:) 最佳答案 这里有一些文档:http://wiki.apache.org/cassandra/HadoopSupport尽管如此,我不确定我是否会将其称为权威指南。如果您已经设置了cassandra集群和hadoop集群,那么最好的办法是从那里开始,然后提出问题(irc、邮件列表等)。如果您是cassandra或hadoop的新手,我会先分别熟悉这些项

hadoop - 使用 Hector 对 Cassandra 数据运行 mapreduce

我一直在尝试使用Java客户端“HECTOR”对存储在Cassandra中的数据运行简单的map-reduce作业。我已经成功运行了这个漂亮的blogpost中解释的hadoop-wordcount示例.我也读过HadoopSupport文章。但我想做的在实现方面有点不同(wordcount示例使用一个脚本,其中提到了mapreduce-site.xml)。我希望有人能帮助我了解如何在分布式模式下运行map-reduce作业,而不是在cassandra数据上从“HECTOR”本地运行。我的代码在本地模式下成功运行map-reduce作业。但我想要的是在分布式模式下运行它们并将结果作为新