CASSANDRA

java - 为 cassandra 创建 ColumnFamilyInputFormat 的自定义 InputFormat

我正在做一个项目，使用cassandra1.2，hadoop1.2我已经创建了我的普通cassandra映射器和缩减器，但我想创建我自己的输入格式类，它将从cassandra读取记录，我将通过使用拆分和索引拆分该值来获得所需的列值,所以，我计划创建自定义格式类。但我很困惑，不知道，我该怎么做？要扩展和实现哪些类，以及我将如何获取行键、列名、列值等我的Mapper类如下:publicclassMyMapperextendsMapper,Text,Text>{privateTextword=newText();MyJDBCdb=newMyJDBC();publicvoidmap(ByteB

自定 ColumnFamilyInputFormat 34 ByteBufferUtil java hadoop mapreduce cassandra

hadoop - cassandra 和 hadoop - 实时与批处理

根据http://www.dbta.com/Articles/Columns/Notes-on-NoSQL/Cassandra-and-Hadoop---Strange-Bedfellows-or-a-Match-Made-in-Heaven-75890.aspxCassandra追求的解决方案与Hadoop有所不同。Cassandra擅长大容量实时事务处理，而Hadoop擅长更多面向批处理的分析解决方案。Cassandra和Hadoop在架构/实现上的差异是什么导致了这种使用上的差异。(在外行软件专业术语中) 最佳答案我想补充一

hadoop cassandra section nosql

hadoop - Pig & Cassandra & DataStax 拆分控制

我一直在使用Pig和我的Cassandra数据来完成各种惊人的分组壮举，这些壮举几乎不可能用命令式编写。我正在使用DataStax的Hadoop和Cassandra集成，我不得不说它非常令人印象深刻。向那些家伙致敬!!我有一个非常小的沙盒集群(2节点)，我正在其中对这个系统进行一些测试。我有一个CQL表，它有~53M行(每个大约350字节)，我注意到Mapper稍后需要很长时间来处理这53M行。我开始查看日志，发现map反复溢出(我从映射器中看到177次溢出)，我认为这是问题的一部分。CassandraInputFormat和JobConfig的组合只创建了一个映射器，所以这个映射器必

amp Cassandra 射器 section code hadoop apache-pig datastax-enterprise datastax

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量，因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

Cassandra hadoop ClusterTaskSetManager cluster 16 scala cassandra-2.0 apache-spark

hadoop - 为 Spark 集群和 Cassandra 设置和配置 JanusGraph

我在一台机器上运行JanusGraph(0.1.0)和Spark(1.6.1)。我按照描述进行了配置here.使用SparkGraphComputer访问gremlin-console上的图形时，它始终为空。我在日志文件中找不到任何错误，它只是一个空图。是否有人将JanusGraph与Spark一起使用并且可以分享他的配置和属性？使用JanusGraph，我得到了预期的输出:gremlin>graph=JanusGraphFactory.open('conf/test.properties')==>standardjanusgraph[cassandrathrift:[127.0.0.

JanusGraph Cassandra gremlin hadoop apache-spark titan

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户？或者在这段时间里，什么类型的服务被调用最多？我提取的几乎所有信息都取决于时间戳。实际上，我使用MongoDB并将时间戳添加为索引(对于80GB，索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看，Cas

timeseries Cassandra section hadoop hbase analytics bigdata

java - Cassandra InvalidRequestException(为什么 :[MyKeyspace][MyColumnFamily][6675. ..6c74] = [6c86......e65720] 验证失败(字符串未验证。))

我将Cassandra与Hadoop一起用于输入和输出。在输出减少作业期间，我得到一个错误:2011-08-1003:54:04,326WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:InvalidRequestException(why:[MyKeyspace][MyColumnFamily][66756c6c74657874]=[6c696e6bb66e68656974207a756d.................65697465726520536f6e67746578746520]

InvalidRequestException MyColumnFamily Cassandra section column java hadoop mapreduce

hadoop - Spark 是否使用数据局部性？

我正在尝试了解ApacheSpark的内部结构。我想知道Spark是否使用某些机制来确保在从InputFormat读取或写入OutputFormat(或Sparknative支持但不是从MapReduce派生的其他格式)时的数据局部性。在第一种情况(阅读)中，我的理解是，当使用InputFormat时，拆分与包含数据的主机(或主机？？)相关联，因此Spark尝试将任务分配给执行程序以减少网络尽可能转移。在写作的情况下，这种机制将如何运作？我知道从技术上讲，HDFS中的文件可以保存在本地的任何节点中并复制到其他两个节点(因此您将网络用于3个副本中的两个)，但是，如果您考虑写入其他系统，例

hadoop Spark section Cassandra hbase apache-spark

hadoop - 基于 Cassandra 的数据分析和挖掘

我们有大量来自各种网站的用户交互数据存储在Cassandra中，例如cookie、页面访问、广告查看、广告点击等，我们希望对其进行报告。我们当前的Cassandra模式支持基本的报告和查询。但是，我们还想构建大型查询，这些查询通常涉及大型列族(包含数百万行)上的联接。什么方法最适合这个？一种可能性是将数据提取到关系数据库(如mySQL)并在那里进行数据挖掘。替代方法可能是尝试将hadoop与hive或pig一起使用来为此目的运行mapreduce查询？我必须承认我对后者的经验为零。有没有人经历过两者之间的性能差异？您会在实时Cassandra生产实例或备份副本上运行mapreduce查

Cassandra 挖掘 section 的 hadoop mapreduce analytics

php - 哪个 PHP 客户端库与 Cassandra 一起使用？

我试过phpcassa，但“CassandraPHP客户端库”或“SimpleCassie”怎么样？哪个是最佳选择？最佳答案 (由于PHPCassa将nolongerbesupported和Pandraisabandoned，这个问题需要一个新的答案。)DataStaxPHPDriverforCassandra由PHPCassa开发人员建议作为支持CQL的替代方案，具有许多优秀的特性，并且维护良好。Github和Officialwebsite更新:现在支持PHP7更新2(2019):现在支持PHP7.1

Cassandra php section strong noreferrer

11 12 131415 16 17