cassandra-driver

hadoop - Apache Sqoop 是否支持从 HIVE 到 Cassandra 的数据传输。

这些(Hive/Cassandra)都不是关系型的。Hive受JDBC支持，我认为与Hive兼容。最佳答案您说得对Sqoop与JDBC一起工作。例如，使用ProgressJDBCdriver，您可以从Sqoop按如下方式从HDFS导出到Cassandra:sqoopexport--connect'jdbc:datadirect:cassandra://MyServer:9042;KeyspaceName=MyKS'--drivercom.ddtek.jdbc.cassandra.CassandraDriver--table'bl

postgresql - 从 PostgreSQL 到 Cassandra - 不支持聚合函数

我需要你的建议。我有一个在PostgreSQL上运行的应用程序，但它需要很长时间才能恢复数据。我想使用Cassandra，但注意到CQL不支持聚合。这对Hadoop来说是可能的还是我完全走错了路？此外，所有日期都存储在Epoch中，CQL无法转换它们。将在PostGreSQL上运行的应用程序转换为Cassandra的最佳方法是什么？感谢您的任何建议。最佳答案 Cassandra在2.2中引入了聚合函数CASSANDRA-4914.使用标准(内置)函数的文档是here用于创建自定义聚合函数的是here.

不支 postgresql section noreferrer Cassandra hadoop datastax nosql-aggregation

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案，提供可靠性而不是一致性，因此适合实时系统。它还为查询提供类似SQL的语法，但在底层管理其数据的方式与普通数据库截然不同。另一方面，Hadoop提供的一致性优于可靠性，因此适合分析系统。它的接口(interface)是MapReduce，对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce，该架构更多地利用内存而不是硬盘，并公开更好的接口(interface)，例如RDD和数据帧。所以我的问题是:

Cassandra database section Spark hadoop apache-spark bigdata

hadoop - Cassandra pig 插入异常

我正在使用pigCassandraStroage()将一个大数据集插入到cassandra中，运行4小时后，它崩溃并出现以下异常:java.lang.NullPointerExceptionatorg.apache.cassandra.dht.RandomPartitioner.getToken(RandomPartitioner.java:134)atorg.apache.cassandra.dht.RandomPartitioner.getToken(RandomPartitioner.java:36)atorg.apache.cassandra.client.RingCache.

Cassandra hadoop apache java apache-pig

hadoop - Hive 作业在 cassandra 集群上无法正常运行，reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时，映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列，每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

卡住 cassandra 34 Cumulative Stage hadoop hive datastax-enterprise

hadoop - Cassandra 和 Hadoop

我是Cassandra和Hadoop的新手。我正在尝试按小时读取cassandra数据并转储到HDFS中。Cassandra和Hadoop在不同的集群上。非常感谢我可以用来执行此操作的有关客户端/API的任何指示。最佳答案我推荐Java，因为Hadoop和Cassandra都是基于Java的。Astyanax是一个很好的JavaCassandraAPI。我已经使用org.apache.hadoop通过Java写入HDFS，但可能还有更好的东西。关于hadoop-Cassandra和

Cassandra hadoop section

hadoop - Cassandra 和 Couchbase 之间此用例的潜在权衡

我们目前有一个写入量非常大的网络分析应用程序，它从大量网站和商店收集大量实时事件，用于后续分析和报告。我们最初计划的架构涉及一组网络服务器处理请求，并将所有数据写入Cassandra集群，同时更新大量计数器以获取实时聚合报告。我们还计划直接在CassandraFS上使用hadoop(作为HDFS的替代品-由datastax提供)在Cassandra中驻留的数据上本地运行MapReduce作业以进行更多相关分析。MapR作业的输出将被写回Cassandra中的ColumnFamilies。Hadoopmapreduce在写入密集型主cassandra集群的只读副本上运行。这个想法是为了避

Cassandra Couchbase section hadoop

hadoop - Cassandra CQL3 复合 key 不是由 Hadoop reducer 编写的

我正在使用Cassandra1.2.8，并且有几个HadoopMapReduce作业，它们从一些CQL3表中读取行并将结果写回另一个CQL3表。如果输出CQL3表包含复合键，复合键字段的值不是由reducer写入的-相反，我在cqlsh中执行选择查询时看到这些字段的空值。如果主键不是复合键，则一切正常。具有复合键的输出CQL3表的示例:CREATETABLEevents_by_type_with_source(event_type_idASCII,periodASCII,dateTIMESTAMP,source_nameASCII,events_numberCOUNTER,PRIMAR

Cassandra 编写 section events source hadoop cql3

python - 使 pig 嵌入 python 脚本和 pig cassandra 集成以与 oozie 一起工作

我是oozie的新手，遇到的问题很少。1)我试图在oozie中嵌入一个pigAction，它有一个python脚本导入。我已将jython.jar文件放在lib路径中，并在将采用pythonUDF的pig脚本中导入。我似乎没有得到这个工作。.py文件未被拾取。怎么办？2)我有一个pigcassandra集成，在其中我使用cql使用pig从cassandra获取数据并进行一些基本转换。在CLI中，我能够使它正常工作。但在oozie方面我不是。我似乎没有找到在oozie中执行此操作的解决方案(配置和其他)。谁能帮我解决这个问题？提前致谢。最佳答案

python pig section oozie hadoop cassandra apache-pig

hadoop - Pig Cassandra process very slow (Heart beat) with oozie

我有一个pig脚本，它将从cassandra获取所有数据，进行少量转换并存储到hdfs上。在pig的grunt控制台执行时，cassandra数据量大，耗时将近30分钟。但是当我使用oozie工作流执行相同的操作时，它执行但需要很长时间，将近一个半小时。当我检查hadoop日志时，这就是它所说的。2013-11-1901:20:00,871[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-Moreinformationat:master:50030/jobde

Cassandra process section hadoop MapReduceLauncher apache-pig oozie

73 74 757677 78 79