CASSANDRA

hadoop - 如何在查询 Cassandra 时指示 Hive 使用分区/主键

我们正在运行DatastaxEnterprise4.0.1并尝试针对Cassandra中的CF运行不同的M/R作业。我们这样设置了列族:CREATETABLEpageviews(websitetext,datetext,createdtimestamp,browser_idtext,iptext,referertext,user_agenttext,PRIMARYKEY((website,date),created,browser_id))WITHbloom_filter_fp_chance=0.001000ANDcaching='KEYS_ONLY'ANDcomment=''ANDd

何在 Cassandra 39 section AND hadoop hive apache-pig datastax-enterprise

java - Cassandra Hadoop MapReduce : java. lang.ClassCastException : java. util.HashMap 无法转换为 java.nio.ByteBuffer

我正在尝试使用ApacheCassandra创建mapreduce作业。输入日期来自cassandra，输出也转到cassandra。该程序尝试从名为tweetstore的表中选择所有数据，然后插入包含用户名的行数。这是mapreduce作业的主要类:packagecom.cassandra.hadoop;importjava.io.*;importjava.lang.*;importjava.util.*;importjava.nio.ByteBuffer;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoo

java ClassCastException import apache hadoop mapreduce cassandra bytebuffer

hadoop - Cassandra 与 hadoop 集成以提高读取性能

我正在使用ApacheCassandra存储大约1亿条记录。有一个具有以下规范的单个节点-RAM-32GB,HDD-2TB,Intelquadcoreprocessor.cassandra存在读取性能问题。对于某些查询，给出输出大约需要40分钟。在搜索如何提高读取性能后，我开始了解以下因素-Compactionstrategy,compressiontechniques,keycache,increasetheheapspace,turningofftheswapspaceforcassandra.进行这些优化后，性能保持不变。在seraching之后，我开始考虑将Hadoop与cas

hadoop Cassandra section 中进

hadoop - 用于 Hadoop 作业的 Cassandra 与 HBase

在MapReduce作业方面，Cassandra相对于HBase有哪些优势？我有很多小文件想从HDFS移动到数据库，这些文件将作为MapReduce作业的输入。我不会获取所有文件，而是针对某个用户，所以可能是整行，至少是一个列族。我可以拿走某个时期的文件。我知道HBase是Hadoop数据库，所以我希望它能很好地满足我的需求，但我还了解到Cassandra的性能要好得多。但是我想知道当你将它用作MapReduce作业的输入时是什么情况。性能是否仍然比HBase好很多？我必须强调，我不是在寻找一般的HBase和Cassandra的比较，而是在MapReduce作业的具体案例中。类似thi

Cassandra hadoop HBase section

hadoop - Cassandra 聚合到 Map

我是cassandra的新手，过去几个月我主要使用Hive。最近我开始了一个项目，我需要用cassandra代替在hive中做的一些事情。本质上，我正在尝试找到一种方法来将多行聚合到查询时的单个映射中。在配置单元中，我只是使用“map”聚合进行分组。cassandra中是否存在做类似事情的方法？这是一个工作hive查询的例子，它完成了我想要做的任务:selectmap("quantity",count(caseid),"title",casesubcat,"id",casesubcatid,"category",named_struct("id",casecatid,'title',c

Cassandra hadoop section cql hive datastax

从 Cassandra 读取的 Hadoop 作业似乎只在主机上运行(从机完全空闲)

但是当我运行hadoop包含的wordcount示例(dfs版本)时，我看到负载被分配到所有从属设备。Cassandra中的ColumnFamilyInputFormat有什么特别之处？我需要在hadoopconfig中设置任何其他参数吗？谢谢，维维克最佳答案我建议从Brisk(http://www.datastax.com/brisk)开始，而不是尝试从头开始设置hadoop-on-Cassandra，因为如果您采用这种方法，则需要对这两个系统有相当深入的了解. 关于从Cassan

机上 Cassandra section 中设 hadoop

hadoop - Cassandra 升级 0.8.2->0.8.4 出现错误 "failed connecting to all endpoints"

cassandra从0.8.2升级到0.8.4后出现这个错误我已经重新启动了cassandra，删除了数据等。没有任何帮助在它运行良好之前，我在云中有6台相同的机器。如果我做netstat那么它显示端口9160监听nodetool...ring-响应6台机器UP。可能是什么问题？:(线程“main”中的异常java.io.IOException:无法获取输入拆分在org.apache.cassandra.hadoop.ColumnFamilyInputFormat.getSplits(ColumnFamilyInputFormat.java:157)在org.apache.hadoop

amp connecting java ColumnFamilyInputFormat hadoop mapreduce cassandra thrift

hadoop - 如何将数据从 Cassandra 导入到 Hadoop 文件系统

我想知道如何将数据从Cassandra导入Hadoop文件系统，以及如何定期持续进行(即当Cassandra数据库发生变化或新数据插入Cassandra时如何我们可以检测到变化并将数据迁移到HDFS(Hadoop文件系统)吗？最佳答案您有多种选择可以做到这一点。您可以编写顺序程序或mapreduce作业或pig等来实现自动化，您也有多种选择。你可以有一个cron来为你做这件事，或者如果你想让你的工作流程更复杂，你可以使用Oozie(一个工作流引擎)来根据你想要的任何标准安排你的工作。

Cassandra hadoop section bigdata

hadoop - 所有列族都没有从 Cassandra 键空间映射到 Hive 数据库

我正在使用与hadoophive集成的cassandra。我的键空间测试中有这两个列族-1)CF_1createCOLUMNFAMILYCF_1(keyuuidprimarykey,timevarchar,typevarchar);2)CF_2createCOLUMNFAMILYCF_2(idvarchar,timetimestamp,datavarchar,primarykey(id,time));因此配置单元仅将CF_1从我的cassandra键空间映射到配置单元表。我认为其他列族(CF_2)未映射，因为它具有复合主键。要么我认为目前在DataStax企业套件中不支持具有复合键的C

Cassandra hadoop section 配置单 varchar hive datastax-enterprise

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程，使用MapReduce创建摘要并写回不同的键空间。从单个节点开始，一切都按我预期的那样工作，但是当移动到多节点时，我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行，每个任务跟踪器只会查询本地C

Cassandra hadoop 跟踪器 section apache-pig

35 36 373839 40 41