Cassandra-cli

Hadoop Cassandra集成设计

我有3个Cassandra节点让我们说c1、c2和c3。我想将Hadoop与Cassandra集成，这样我就可以在Hadoop上运行我的pig脚本来从Cassandra读取数据并进行分析。所以我已经像这样设置了hadooph1作为名称节点，h2作为数据节点，c1作为数据节点，c3作为数据节点。这里的h2节点是唯一的hadoop数据节点，而不是任何Cassandra节点。我的问题是在通过pig/mapredude读取和处理数据时是否使用h2数据节点？最佳答案如果我错了请纠正我，但是您不需要在所有cassandra节点上安装hado

hadoop - 使用 map reduce 在 cassandra 中执行批量加载

我没有太多使用cassandra的经验，所以如果我采用了错误的方法，请原谅。我正在尝试使用mapreduce在cassandra中进行批量加载基本上是字数统计的例子引用:http://henning.kropponline.de/2012/11/15/using-cassandra-hadoopbulkoutputformat/我已经放置了简单的HadoopWordcountMapper示例，并根据上面的示例稍微修改了驱动程序代码和reducer。我也成功生成了输出文件。现在我的疑问是如何执行加载到cassandra部分？我的方法有什么不同吗？请指教。这是驱动代码的一部分Jobjob=

cassandra hadoop code 34 mapreduce bulk-load datastax-enterprise

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业？

我正在尝试使用HDInsight在Azure上使用Hadoop，但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止，我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs，但它使用PowerShell，我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外，是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业？

跨平台 Hadoop section noreferrer noopener azure azure-hdinsight

hadoop - 如何从 Cassandra 加载数据到 HDFS？

我有一个驻留在ApacheCassandra中的数据，我想使用hadoop生态系统工具执行map/reduce作业。如何从Cassandra加载数据到HDFS？除了Cassandrastoragehandler/brisk，还有其他存储处理程序吗？最佳答案 Netflix推出了一款名为Aegisthus的新工具，它试图解决这个问题。ABulkDataPipelineoutofCassandra.AegisthusimplementsareaderfortheSSTableformatandprovidesamap/reducepr

Cassandra hadoop section aegisthus hive apache-pig hdfs

hadoop - Cassandra 与 Hadoop 的结合使用

我有一项任务要研究将cassandra与hadoop结合使用。Hadoop的名称节点是单点故障。这意味着如果名称节点出现故障，则整个数据库将无法访问。所有Cassandra节点都是相同的，因此不存在单点故障。如果我将Cassandra与Hadoop一起使用，我假设所有系统都有单点故障(据我所知，这是Hadoop名称节点)。我的问题:1-我之前的假设是否正确？2-如果是这种情况，使用这种结构(Cassandra和Hadoop)有什么优势吗？最佳答案半真半假。如果您将Cassandra与Hadoop一起使用，则所有数据都存储在Cas

Cassandra hadoop section

hadoop - Cassandra - Hive 集成

集成Cassandra和Hive的最佳实践是什么？Stackoverflow上的一个老问题(CassandrawihHive)指向Brisk，它现在已成为仅限订阅的DatastaxEnterprise产品。谷歌搜索仅指向两个Unresolvedjira问题，https://issues.apache.org/jira/browse/CASSANDRA-4131https://issues.apache.org/jira/browse/HIVE-1434但它们都没有导致在两个项目之一中提交任何代码。集成Cassandra和Hive的唯一方法是修补Cassandra/Hive源代码吗？您在

Cassandra hadoop section noreferrer hive

hadoop - 使用 cassandra 和 hadoop 的大数据 lambda 架构

我正在研究用于传感器数据和预测分析的大数据解决方案。我是大数据的新手，并且已经阅读了有关lambda架构的信息。我考虑过将Cassandra数据库与Hadoop一起使用。Cassandra是一个高可用性和分区容错数据库，Hadoophdfs是一个用于大型分析作业的文件系统。如果我从物联网设备接收数据，数据应该先保存在Hadoop中，然后再保存到Cassandra中吗？lambda架构在批处理层有Hadoop，接收数据并将其发送到服务层到nosql数据库。为什么Hadoop中数据要先行？如果Hadoop包含原始数据，Cassandra中会存储什么样的数据？流层目前处于焦点之外。我只是想一

hadoop 大数 section Cassandra bigdata

java - Cassandra 和 Pig 集成 - hadoop 是可选的吗？

我正在尝试设置一个试用cassandra+pig集群。cassandrawiki听起来好像您需要hadoop才能与pig集成。但是cassandra-src/contrib/pig中的自述文件听起来好像您可以在没有hadoop的情况下在cassandra上运行pig。如果hadoop是可选的，不使用它会损失什么？最佳答案 Hadoop仅在您进行测试时才可选。为了以任何规模做任何事情，您还需要hadoop。在没有hadoop的情况下运行意味着您在本地模式下运行pig。这基本上意味着所有数据都由您正在运行的同一个pig进程处理。这适用

Cassandra hadoop section java apache-pig

hadoop - pig + Cassandra : ERROR 1070

我正在使用hadoop1.0.4、cassandra1.2.2和pig0.11.0。我想在grunt上运行这个脚本:**grunt>rows=LOAD'cassandra://Keyspace1/Users'USINGCassandraStorage()AS(key,columns:bag{T:tuple(name,value)});**但是我有这个错误:**2013-03-1911:15:54,957[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1070:CouldnotresolveCassandraStorageusingimp

Cassandra hadoop apache pig org apache-pig

hadoop - 使用 Hadoop 扩展 Cassandra 和 Mahout

是否可以将Mahout配置为在通过Hadoop执行推荐作业时从Cassandra集群检索输入数据？我找到了一些有关此主题的资源-请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html，但那里描述的指示似乎不起作用(在mahout-0.6和mahout-0.7上都试过)。例如，itemIDIndexPath变量似乎不存在于RecommenderJob类中，也不存在于它扩展的抽象类中。最佳答案我试过针对Cassan

Cassandra hadoop section mahout

114 115 116117118 119 120