草庐IT

cassandra-driver

全部标签

hadoop - Cassandra 聚合到 Map

我是cassandra的新手,过去几个月我主要使用Hive。最近我开始了一个项目,我需要用cassandra代替在hive中做的一些事情。本质上,我正在尝试找到一种方法来将多行聚合到查询时的单个映射中。在配置单元中,我只是使用“map”聚合进行分组。cassandra中是否存在做类似事情的方法?这是一个工作hive查询的例子,它完成了我想要做的任务:selectmap("quantity",count(caseid),"title",casesubcat,"id",casesubcatid,"category",named_struct("id",casecatid,'title',c

java - Mapreduce 作业吐出 java.io.IOException : com. mysql.jdbc.Driver

hadoop-2.7.3我正在创建一个mapreduce作业,它从HDFS输入文件读取数据并将数据写入mysql。它在启动连接时抛出错误。没有其他信息,例如连接被拒绝或classNotFound异常。简单的IO异常,对我来说没有任何意义。Error:java.io.IOException:com.mysql.jdbc.Driveratorg.apache.hadoop.mapreduce.lib.db.DBOutputFormat.getRecordWriter(DBOutputFormat.java:185)atorg.apache.hadoop.mapred.ReduceTask$

从 Cassandra 读取的 Hadoop 作业似乎只在主机上运行(从机完全空闲)

但是当我运行hadoop包含的wordcount示例(dfs版本)时,我看到负载被分配到所有从属设备。Cassandra中的ColumnFamilyInputFormat有什么特别之处?我需要在hadoopconfig中设置任何其他参数吗?谢谢,维维克 最佳答案 我建议从Brisk(http://www.datastax.com/brisk)开始,而不是尝试从头开始设置hadoop-on-Cassandra,因为如果您采用这种方法,则需要对这两个系统有相当深入的了解. 关于从Cassan

hadoop - Cassandra 升级 0.8.2->0.8.4 出现错误 "failed connecting to all endpoints"

cassandra从0.8.2升级到0.8.4后出现这个错误我已经重新启动了cassandra,删除了数据等。没有任何帮助在它运行良好之前,我在云中有6台相同的机器。如果我做netstat那么它显示端口9160监听nodetool...ring-响应6台机器UP。可能是什么问题?:(线程“main”中的异常java.io.IOException:无法获取输入拆分在org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFamilyInputFormat.java:157)在org.apache.hadoop

hadoop - 如何将数据从 Cassandra 导入到 Hadoop 文件系统

我想知道如何将数据从Cassandra导入Hadoop文件系统,以及如何定期持续进行(即当Cassandra数据库发生变化或新数据插入Cassandra时如何我们可以检测到变化并将数据迁移到HDFS(Hadoop文件系统)吗? 最佳答案 您有多种选择可以做到这一点。您可以编写顺序程序或ma​​preduce作业或pig等来实现自动化,您也有多种选择。你可以有一个cron来为你做这件事,或者如果你想让你的工作流程更复杂,你可以使用Oozie(一个工作流引擎)来根据你想要的任何标准安排你的工作。

hadoop - 所有列族都没有从 Cassandra 键空间映射到 Hive 数据库

我正在使用与hadoophive集成的cassandra。我的键空间测试中有这两个列族-1)CF_1createCOLUMNFAMILYCF_1(keyuuidprimarykey,timevarchar,typevarchar);2)CF_2createCOLUMNFAMILYCF_2(idvarchar,timetimestamp,datavarchar,primarykey(id,time));因此配置单元仅将CF_1从我的cassandra键空间映射到配置单元表。我认为其他列族(CF_2)未映射,因为它具有复合主键。要么我认为目前在DataStax企业套件中不支持具有复合键的C

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程,使用MapReduce创建摘要并写回不同的键空间。从单个节点开始,一切都按我预期的那样工作,但是当移动到多节点时,我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行,每个任务跟踪器只会查询本地C

hadoop - Cassandra 与 Hadoop 的集成

我是Cassandra的新手。我发布这个问题是因为不同的文档提供了关于将Hive与Cassandra集成的不同细节,我无法找到github页面。我在我的3节点HDP2.0集群的其中一个数据节点中安装了单节点Cassandra2.0.2(Datastax社区版)。我无法使用配置单元通过“org.apache.hadoop.hive.cassandra.cql3.CqlStorageHandler”访问Cassandra。我从org.apache.hadoop.hive.ql.exec.DDLTask收到错误“返回代码1”。org.apache.hadoop.hive.ql.metadat

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前,我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录,在3节点集群中需要8多个小时才能读取),并且由于存在原生二进制协议(protocol),我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现?如果

java - 使用来自 hadoop reduce 的复合主键插入到 cassandra 表

我正在使用ApacheHadoop、MapReduce和Cassandra运行一个MapReduce作业,该作业从一个Cassandra表中读入,然后输出到另一个Cassandra表。我有一些作业输出到具有单个主键的表。例如,这个用于计算每种单词数量的表有一个键。CREATETABLEword_count(wordtext,countint,PRIMARYKEY(text))WITHCOMPACTSTORAGE;关联的reduce类看起来有点像这样:publicstaticclassReducerToCassandraextendsReducer>{publicvoidreduce(T