草庐IT

CASSANDRA

全部标签

java - Cassandra,使用 ByteBufferUtil (org.apache.cassandra.utils) 读取列类型 map<> 的值

我正在开发在Cassandra上运行的Hadoop。一切都运行良好,但我现在遇到了一个我找不到解决方案的问题。我的一个专栏包含一个集合,定义类似于:createtableproductUsage(....productsmap,productcategoriesmap)...等等在我的map/reduce映射函数中,我需要从这些列中读取值,但不知道如何将列数据(字节缓冲区)转换为可用的HashMap变量-ByteBufferUtil函数似乎没有帮助。我现在提取列值的map/reduce映射代码如下所示...stringproductid;HashMapproducts;for(Entr

hadoop - 无法找到分区程序类 - Cassandra

当我在Hadoop上运行我的应用程序时,可以帮助我解决Cassandra面临的以下问题。当我运行该应用程序时,我收到以下关于我们在应用程序中提到的分区程序类的错误。Causedby:java.lang.RuntimeException:org.apache.cassandra.exceptions.ConfigurationException:Unabletofindpartitionerclass'org.apache.cassandra.dht.RandomPartitioner'atorg.apache.cassandra.hadoop.ConfigHelper.getInput

hadoop - 连接 Cassandra 和 Hive

目前我正在使用Cassandra2.1.5、Hive1.2.1和Hadoop2.7.1。我尝试使用本教程将Cassandra连接到Hive:http://frommyworkshop.blogspot.com/2013/09/real-time-data-processing-with.html但我似乎陷入了创建外部表的困境:CREATEEXTERNALTABLEtest.pokes(fooint,barstring)STOREDBY'org.apache.hadoop.hive.cassandra.CassandraStorageHandler'WITHSERDEPROPERTIES

Hadoop 和 Cassandra 基准测试

我最近构建了一个Hadoop-Cloudera集群和Cassandra集群,有2个节点。我现在想做一些基准测试,收集一些关于资源使用的数据。我搜索了很多,找到了HiBench和Cassandra压力工具。我不想与其他系统进行比较,我想测量自己的系统,但很难想象,我如何才能获得真实且正确的值。集群由2个虚拟机组成,使用KVM创建。Cassandra在Docker容器中。难以解释,如何分析这个系统,而不得到错误的结果。 最佳答案 一些评论Clusterconsistsof2virtualmachines,createdwithKVM如果

datetime - Apache Cassandra 时区问题

我正在尝试使用人才将数据从MSSQL移动到cassandra,但是我遇到了timezone问题,因为MSSQL在CST时区,而Cassandra有时区Etc/协调世界时。尝试更改以下配置文件Location:/opt/apache-cassandra-3.9/conf/文件:cqlshrc.sample从:timezone=Etc/UTC更改为:timezone=CST但cqlsh仍然显示UTC时间戳cqlsh>selecttoTimestamp(now())fromsystem.local;系统.totimestamp(system.now())2017-01-0406:38:45.

hadoop - 用于数据仓库的 Cassandra

作为数据仓库,Cassandra是Hadoop的一个很好的替代品吗?在数据仓库中,数据仅附加并且源数据库中的所有更新不应覆盖数据仓库中的现有行,而是附加。Cassandra真的打算充当数据仓库还是仅仅充当数据库来存储批/流查询的结果? 最佳答案 Cassandra既可以用作数据仓库(原始数据存储),也可以用作数据库(用于最终数据存储)。这更多地取决于您要处理数据的情况。为了不同的目的,您甚至可能需要同时拥有Hadoop和Cassandra。假设,您需要从多个移动设备收集和处理数据,并向用户提供一些复杂的聚合报告。所以一开始,你需要尽

hadoop - 如何在单个 Hadoop 作业中输出到多个 Cassandra 列族?

Cassandra数据模型经常需要更新多个列族以支持单个“写入”(即更新双向索引的两侧)。当作业配置仅允许指定单个输出列族时,我如何使用Hadoop执行此操作? 最佳答案 这可以通过使用补丁程序修补Cassandra1.1来实现:https://issues.apache.org/jira/browse/CASSANDRA-4208一旦你有了这个,而不是ConfigHelper.setOutputColumnFamily(),你将调用ConfigHelper.setKeyspace()。然后,您可以使用MultipleOutputs

hadoop - 在cloudera集群上安装datastax cassandra

我有一个在Ubuntu服务器上运行的现有CDH5.3集群。我想在相同的节点上安装Cassandra并将其与现有的Cloudera集群集成。我知道Cassandra现在允许BYOH,但我找不到任何在线指南来帮助我完成它。有没有人这样做过?你有什么我可以遵循的指示吗?谢谢 最佳答案 这是BYOH的Datastax文档 关于hadoop-在cloudera集群上安装datastaxcassandra,我们在StackOverflow上找到一个类似的问题: https

scala - 如何从spark写入文件到cassandra

我是spark和Cassandra的新手。我使用此代码,但它给我错误。valdfprev=df.select(col="se","hu")vala=dfprev.select("se")valb=dfprev.select("hu")valcollection=sc.parallelize(Seq(a,b))collection.saveToCassandra("keyspace","table",SomeColumns("se","hu"))当我在savetocassandra上输入这段代码时,出现错误,错误是:java.lang.IllegalArgumentException:M

hadoop - 有没有办法从 HDFS 将数据加载到 cassandra 中?

我正在寻找将我的数据从HDFS加载到cassandra的选项。有什么办法可以达到这个要求吗?场景是i)我在cassandra中创建了一个类似于HDFS中可用数据的数据模型ii)现在我想将我的hdfs数据导出到创建的cassandra数据模型。如有任何帮助,我们将不胜感激。谢谢,卡莱 最佳答案 找到了。"构建SSTables并上传使用自定义分区程序在reduce步骤中镜像拓扑”https://github.com/spotify/hdfs2cass 关于hadoop-有没有办法从HDFS将