草庐IT

CASSANDRA

全部标签

hadoop - Cassandra Hadoop 集成和 Wordcount 示例

我正在使用Cassandra1.1.6和Hadoop1.0.4。我试图整合它们并在cassandra中运行worcount示例。我知道这个例子默认使用了一些jar。但是,我想用hadoop运行这个例子。现在,我只使用主人和一个奴隶。我需要做哪些修改才能使用hadoop运行此示例? 最佳答案 我设置了一次并记录了我在这里所做的http://blog.alvazan.com/165/how-to-set-up-the-cassandra-wordcount-example/它可能已经过时了。我们最终会用PlayOrm为cassandra

hadoop - Cassandra 从 Hadoop 写入/读取

我们想从MR作业的映射器和缩减器读取/写入Cassandra。如何减少与Cassandra的连接数?.提前谢谢你弗拉迪 最佳答案 限制作业中映射器和缩减器的数量以控制连接数。每个map和reduce使用自己的jvm,因此也使用自己的连接。如果您遇到的问题是超时,请尝试减小批处理大小(cassandra.range.batch.size),请参阅http://wiki.apache.org/cassandra/HadoopSupport 关于hadoop-Cassandra从Hadoop写

hadoop - 无法启动 sqoop : jobtracker not found

当我使用sqoop将数据从mysql传输到cassandra时,出现如标题的错误。dsesqoopimport--connectjdbc:mysql:///Turkgen--usernameroot--tablemgs--cassandra-keyspaceturkgen_ks--cassandra-tablemgs--cassandra-thrift-hostlocalhost--cassandra-create-schema我运行这个命令,但我得到了错误:无法启动sqoop:找不到jobtracker编辑:当我查看jobtracker的日志文件时。有这样的错误:不包含有效的主机:端

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗?

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

hadoop - 从 Cassandra 加载数据

我正在使用Cassandra1.2.12,我想使用Java代码从cassandra加载数据,但我不得不在查询中使用限制。使用DataStaxAPI从Cassandra获取数据。让我们假设keyspace为'k'和columnfamily为'c',在某些情况下从c读取数据导致1000万条记录,因为我得到超时异常我将其限制为10000,我知道我不能将其限制为10001到20000....我想加载完整的1000万条记录,如何才能我解决了这个问题。? 最佳答案 您要问的是分页,您必须使用WHEREkey>[some_value]编写查询来为

java - 将 CqlOutputFormat 用于 INSERT 语句

我是Cassandra的新手。我正在使用hadoop使用CqlOutputFormat将数据批量加载到cassandra集群中。我无法在互联网上找到足够的示例来根据我的用例对其进行定制。我专门用它来使用语句将数据插入集群,insertintopinseries(pin,timeseries)values(?,?)我不确定context.write()应该是什么样子才能完成这项工作。似乎有足够的例子可以看出它应该如何用于更新语句(示例中的字数就可以)。但是有人能告诉我如何在插入模式下使用它吗? 最佳答案 CqlOutputFormat

hadoop - 使用 cassandra 和 pig 进行数据清理

我有两组数据想在Pig中进行比较。两者具有相同的唯一ID,但第二组数据中的名称随机更改。逻辑如下:加载empl1原始数据加载empl2原始数据选择“名称不相同”且“emplno相等”的行我做了:A1=LOAD'cassandra://employees_pig1/employees_cf'USINGCassandraStorage()AS(key,columns:bag{T:tuple(name,value)});B1=LOAD'cassandra://employees_pig2/employees_cf'USINGCassandraStorage()AS(key,columns:b

java - Hadoop单节点安装报错

我正在尝试使用Java6在MacLion上安装hadoop-1.1.2。我按照这里的所有步骤http://hadoop.apache.org/docs/stable/single_node_setup.html但是当我执行start-all.sh时,只有namemode和jobtracker启动而不是datanode,secondarynode和tasktracker。这是输出:hadoop-1.1.2rachana$bin/start-all.shWarning:$HADOOP_HOMEisdeprecated.startingnamenode,loggingto/Users/rac

hadoop - cassandra 上的 Nutch 2.3.1 无法启动

我正在尝试使用cassandra运行nutch2.3.1。按照http://wiki.apache.org/nutch/Nutch2Cassandra上的步骤操作.最后,当我尝试使用命令启动nutch时:bin/crawlurls/testhttp://localhost:8983/solr/2我得到以下异常:GeneratorJob:startingGeneratorJob:filtering:falseGeneratorJob:normalizing:falseGeneratorJob:topN:50000GeneratorJob:java.lang.RuntimeExceptio

hadoop - 如何从另一个列中填充 Cassandra 列族?

我一直读到,如果您的应用程序经常更改并且经常添加功能,Cassandra会很好。这是有道理的,因为您没有任何固定的架构,您可以向行添加列来满足您的需求,而不是运行ALTERTABLE查询,这可能会使您的数据库因非常大的表而卡住数小时。但是我有一个我无法解决的假设性问题。假设我有:CREATECOLUMNFAMILYStudentswithcomparator='CompositeType(UTF8Type,UTF8Type),andkey_validation_class=UUIDType;每个学生都有一些通用列(您知道,meta:username、meta:password、meta