CASSANDRA

scala - Cassandra 全表转储到 HDFS

我正在尝试使用来自Datastax的Spark-Cassandra连接器(v2.0.2，Sparkv2.0.0):valdf=sparkSession.sparkContext.cassandraTable[MyRec](keyspace,tableName).toDF()df.write.format("orc").save(hdfsLocation)它看起来非常简单并且运行了一段时间但我开始遇到这样的异常:Causedby:com.datastax.driver.core.exceptions.ReadFailureException:Cassandrafailureduringr

hadoop - Pig 集成Cassandra : simple distributed query takes a few minutes to complete. 这正常吗？

我设置了Cassandra+Pig/Hadoop的测试集成。8个节点为Cassandra+TaskTracker节点，1个节点为JobTracker/NameNode。我启动了cassandra客户端并在Cassandra发行版的Readme.txt中创建了一些简单的数据:[default@unknown]createkeyspaceKeyspace1;[default@unknown]useKeyspace1;[default@Keyspace1]createcolumnfamilyUserswithcomparator=UTF8Typeanddefault_validation_c

distributed Cassandra section default grunt hadoop apache-pig

java - 升级到 Cassandra 1.1.0 后找不到 CassandraStorage()

这个问题似乎已经在最新的Cassandra1.1.2中得到解决，但我会把它留给那些仍在使用1.1.0的人...我刚刚升级到Cassandra1.1.0，从源代码编译它，现在到处都找不到CassandraStorage()类，而且contrib目录也不见了!我可以知道在哪里可以找到它吗？该类对于通过Cassandra运行Pig和Hadoop非常重要。此外，从示例目录执行pig_cassandra会产生无法找到CassandraStorage()的错误。有解决办法吗？谢谢! 最佳答案 org.apache.cassandra.hadoo

CassandraStorage Cassandra section java hadoop apache-pig

hadoop - 使用 hadoop 将数据读/写到 Cassandra

我一直在尝试将hadoop与cassandra集成。已经运行的字数统计示例。但我需要示例代码，通过使用hector将hadoop与cassandra连接起来。最佳答案看看thispresentation以及相关github站点上的代码示例。它适用于Cassandra1.1，但它会引导您完成每个步骤。关于hadoop-使用hadoop将数据读/写到Cassandra，我们在StackOverflow上找到一个类似的问题： https://stackover

hadoop Cassandra section stackoverflow mapreduce

hadoop - HDFS 到 Cassandra

是否可以将已处理的文件(使用PIG)从本地HDFS(比方说192.168.0.10)迁移/复制/复制/移动到cassandra(192.168.0.20)？我的想法是，我实际上创建了一个java应用程序来解析文件并将它们重新插入到cassandra中。还有其他方法吗？非常感谢! 最佳答案写一个Java程序将Hadoop数据迁移到Cassandra表，其实是大材小用。如果您碰巧定期执行相同的操作，情况会变得更糟。相反，我们可以利用Hive的一个非常有用的功能，它可以帮助我们将Hive表与外部数据源集成。其hive的StorageHa

Cassandra hadoop section apache-pig

hadoop - Apache Sqoop 是否支持从 HIVE 到 Cassandra 的数据传输。

这些(Hive/Cassandra)都不是关系型的。Hive受JDBC支持，我认为与Hive兼容。最佳答案您说得对Sqoop与JDBC一起工作。例如，使用ProgressJDBCdriver，您可以从Sqoop按如下方式从HDFS导出到Cassandra:sqoopexport--connect'jdbc:datadirect:cassandra://MyServer:9042;KeyspaceName=MyKS'--drivercom.ddtek.jdbc.cassandra.CassandraDriver--table'bl

Cassandra hadoop section hive sqoop

postgresql - 从 PostgreSQL 到 Cassandra - 不支持聚合函数

我需要你的建议。我有一个在PostgreSQL上运行的应用程序，但它需要很长时间才能恢复数据。我想使用Cassandra，但注意到CQL不支持聚合。这对Hadoop来说是可能的还是我完全走错了路？此外，所有日期都存储在Epoch中，CQL无法转换它们。将在PostGreSQL上运行的应用程序转换为Cassandra的最佳方法是什么？感谢您的任何建议。最佳答案 Cassandra在2.2中引入了聚合函数CASSANDRA-4914.使用标准(内置)函数的文档是here用于创建自定义聚合函数的是here.

不支 postgresql section noreferrer Cassandra hadoop datastax nosql-aggregation

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案，提供可靠性而不是一致性，因此适合实时系统。它还为查询提供类似SQL的语法，但在底层管理其数据的方式与普通数据库截然不同。另一方面，Hadoop提供的一致性优于可靠性，因此适合分析系统。它的接口(interface)是MapReduce，对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce，该架构更多地利用内存而不是硬盘，并公开更好的接口(interface)，例如RDD和数据帧。所以我的问题是:

Cassandra database section Spark hadoop apache-spark bigdata

hadoop - Cassandra pig 插入异常

我正在使用pigCassandraStroage()将一个大数据集插入到cassandra中，运行4小时后，它崩溃并出现以下异常:java.lang.NullPointerExceptionatorg.apache.cassandra.dht.RandomPartitioner.getToken(RandomPartitioner.java:134)atorg.apache.cassandra.dht.RandomPartitioner.getToken(RandomPartitioner.java:36)atorg.apache.cassandra.client.RingCache.

Cassandra hadoop apache java apache-pig

hadoop - Hive 作业在 cassandra 集群上无法正常运行，reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时，映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列，每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

卡住 cassandra 34 Cumulative Stage hadoop hive datastax-enterprise

33 34 353637 38 39