草庐IT

cassandra-driver

全部标签

hadoop - Cassandras Map Reduce 支持

我最近遇到了一个案例,其中Cassandra非常适合存储基于时间的事件,每个事件类型都有自定义的ttls(另一种解决方案是将它保存在hadoop中并手动进行簿记(ttls和其他东西,恕我直言,非常复杂想法)或切换到hbase)。问题是在没有Datastax企业版的情况下,cassandraMapReduce支持的开箱即用效果如何。他们似乎在CassandraFS上投入了很多,但我问自己是否正常的PigCassandraLoader得到积极维护并且实际上可以扩展(因为它似乎只是迭代切片中的行)。这是否适用于数百万行? 最佳答案 您可以

hadoop - Cassandra 和 Hive

我是cassandra和Hive的新手。现在我想将cassandra与Hadoop-Hive集成,但如何将cassandra与Hive集成。 最佳答案 您很幸运:DataStax刚刚发布了Brisk,这是一个集成了Hadoop和Hive的Cassandra发行版。http://www.datastax.com/products/brisk 关于hadoop-Cassandra和Hive,我们在StackOverflow上找到一个类似的问题: https://s

9. 成功解决:Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found

❤️个人主页:水滴技术🌸订阅专栏:成功解决BUG合集🚀支持水滴:点赞👍+收藏⭐+留言💬问题描述在使用Kettle(Spoon)工具创建MySQL数据库连接时,提示:Driverclass'org.gjt.mm.mysql.Driver'couldnotbefound,makesurethe'MySQL'driver(jarfile)isinstalled.org.gjt.mm.mysql.Driver该提示的意思是缺少MySQL相关的JDBC驱动。原因分析Kettle并工具并没有为所有的数据库提供JDBC驱动,需要自行下载,然后放到lib目录中。解决方案从MySQL官网下载驱动包,步骤如下:第

hadoop - Cassandra + Solr/Hadoop/Spark - 选择合适的工具

我目前正在研究如何存储和分析每行最多1000列的基于时间的丰富数据。目前,DatastaxEnterprise提供的Cassandra和Solr、Hadoop或Spark似乎基本可以满足我的要求。但细节决定成败。在1000列中,大约60列用于类似实时的查询(网络前端、用户发送表单并期望快速响应)。这些查询或多或少是GROUPBY语句,其中计算了次数或出现次数。由于Cassandra本身不提供所需的分析功能(没有GROUPBY),我只剩下这些替代方案:通过Cassandra粗略查询并在自写代码中过滤结果集使用Solr索引数据并运行facet.pivot查询使用Hadoop或Spark并运

hadoop - Impala 找不到 com.mysql.jdbc.Driver

我正在尝试在RedHat5上以伪分布式模式使用CDH4设置ClouderaImpala。我让Hive使用JDBC连接到MySQL元存储,但我在使用JDBC设置Impala时遇到了问题。我一直按照此处的说明进行操作:http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_impala_jdbc.html我已将JAR提取到一个目录中,并将该目录包含在$CLASSPATH中。我还在$CLASSPATH中包含了/usr/lib/hi

nosql - 实时查询/聚合数百万条记录 - hadoop?数据库? Cassandra ?

我有一个可以并行化的解决方案,但我(还)没有使用hadoop/nosql的经验,而且我不确定哪个解决方案最适合我的需求。理论上,如果我有无限的CPU,我的结果应该会立即返回。因此,任何帮助将不胜感激。谢谢!这是我所拥有的:1000多个数据集数据集键:所有数据集都有相同的键100万个key(以后可能是10或2000万个)数据集列:每个数据集都有相同的列10到20列大多数列是我们需要聚合的数值(avg、stddev,并使用R来计算统计数据)有几列是“type_id”列,因为在特定查询中我们可能只想包含某些type_ids网络应用程序用户可以选择他们感兴趣的数据集(15到1000之间的任何一

java - Hadoop mapreduce : Driver for chaining mappers within a MapReduce job

我有mapreduce工作:我的代码map类:publicstaticclassMapClassextendsMapper{@Overridepublicvoidmap(Textkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{}}我想使用ChainMapper:1.Jobjob=newJob(conf,"Jobwithchainedtasks");2.job.setJarByClass(MapReduce.class);3.job.setInputFormatClass(TextInputForma

hadoop - 在一致性 ONE 下读取查询期间 Cassandra 超时(需要 1 个响应,但只有 0 个副本响应)

我在一个有500000行的表上执行读取和更新查询,有时在处理大约300000行后出现错误,即使没有节点关闭也是如此。CassandratimeoutduringreadqueryatconsistencyONE(1responseswererequiredbutonly0replicaresponded)基础设施详情:拥有5个Cassandra节点、5个Spark节点和3个Hadoop节点,每个节点具有8个内核和28GB内存,Cassandra复制因子为3。Cassandra2.1.8.621|DSE4.7.1|星火1.2.1|Hadoop2.7.1。Cassandra配置:read_

Cassandra 数据库上的 Hadoop

我正在使用Cassandra来存储我的数据,并使用Hive来处理我的数据。我有5台机器我已经设置了cassandra和2台机器我用作分析节点(配置单元运行的地方)所以我想问的是hive是否只在两台机器(分析节点)上做mapreduce并将数据带到那里,或者它将过程/计算也移动到5个cassandra节点并处理/计算这些机器上的数据。(我所知道的在hadoop中,进程移动到数据而不是要处理的数据)。 最佳答案 如果您有兴趣将Hadoop和Cassandra结合起来-第一个链接应该是围绕此概念构建的DataStax公司。http://w

hadoop - 在 EC2 : spark. driver.extraClassPath 和 spark.executor.extraClassPath 上设置 spark 类路径

通过为maven依赖项提供spark-classPath来减少应用程序jar的大小:我的集群有3个运行hadoop和spark的ec2实例。如果我使用maven依赖项构建jar,它会变得太大(大约100MB),我想避免这种情况,因为Jar正在所有节点上进行复制,每次我运行作业。为了避免我构建了一个maven包作为“maven包”。为了解决依赖关系,我已经在每个节点上下载了所有maven依赖关系,然后只在jar路径下方提供:我在“spark-defaults.conf”中的每个节点上添加了类路径作为spark.driver.extraClassPath/home/spark/.m2/re