CASSANDRA_草庐IT

hadoop - Cassandra Hadoop 集成和 Wordcount 示例

我正在使用Cassandra1.1.6和Hadoop1.0.4。我试图整合它们并在cassandra中运行worcount示例。我知道这个例子默认使用了一些jar。但是，我想用hadoop运行这个例子。现在，我只使用主人和一个奴隶。我需要做哪些修改才能使用hadoop运行此示例？最佳答案我设置了一次并记录了我在这里所做的http://blog.alvazan.com/165/how-to-set-up-the-cassandra-wordcount-example/它可能已经过时了。我们最终会用PlayOrm为cassandra

hadoop - Cassandra 从 Hadoop 写入/读取

我们想从MR作业的映射器和缩减器读取/写入Cassandra。如何减少与Cassandra的连接数？.提前谢谢你弗拉迪最佳答案限制作业中映射器和缩减器的数量以控制连接数。每个map和reduce使用自己的jvm，因此也使用自己的连接。如果您遇到的问题是超时，请尝试减小批处理大小(cassandra.range.batch.size)，请参阅http://wiki.apache.org/cassandra/HadoopSupport 关于hadoop-Cassandra从Hadoop写

Cassandra hadoop section 射器

hadoop - 无法启动 sqoop : jobtracker not found

当我使用sqoop将数据从mysql传输到cassandra时，出现如标题的错误。dsesqoopimport--connectjdbc:mysql:///Turkgen--usernameroot--tablemgs--cassandra-keyspaceturkgen_ks--cassandra-tablemgs--cassandra-thrift-hostlocalhost--cassandra-create-schema我运行这个命令，但我得到了错误:无法启动sqoop:找不到jobtracker编辑:当我查看jobtracker的日志文件时。有这样的错误:不包含有效的主机:端

jobtracker hadoop section strong cassandra sqoop

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗？

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

Cassandra hadoop section cloudera

hadoop - 从 Cassandra 加载数据

我正在使用Cassandra1.2.12，我想使用Java代码从cassandra加载数据，但我不得不在查询中使用限制。使用DataStaxAPI从Cassandra获取数据。让我们假设keyspace为'k'和columnfamily为'c'，在某些情况下从c读取数据导致1000万条记录，因为我得到超时异常我将其限制为10000，我知道我不能将其限制为10001到20000....我想加载完整的1000万条记录，如何才能我解决了这个问题。？最佳答案您要问的是分页，您必须使用WHEREkey>[some_value]编写查询来为

Cassandra hadoop code section token bigdata

java - 将 CqlOutputFormat 用于 INSERT 语句

我是Cassandra的新手。我正在使用hadoop使用CqlOutputFormat将数据批量加载到cassandra集群中。我无法在互联网上找到足够的示例来根据我的用例对其进行定制。我专门用它来使用语句将数据插入集群，insertintopinseries(pin,timeseries)values(?,?)我不确定context.write()应该是什么样子才能完成这项工作。似乎有足够的例子可以看出它应该如何用于更新语句(示例中的字数就可以)。但是有人能告诉我如何在插入模式下使用它吗？最佳答案 CqlOutputFormat

CqlOutputFormat INSERT section strong java hadoop cassandra cql outputformat

hadoop - 使用 cassandra 和 pig 进行数据清理

我有两组数据想在Pig中进行比较。两者具有相同的唯一ID，但第二组数据中的名称随机更改。逻辑如下:加载empl1原始数据加载empl2原始数据选择“名称不相同”且“emplno相等”的行我做了:A1=LOAD'cassandra://employees_pig1/employees_cf'USINGCassandraStorage()AS(key,columns:bag{T:tuple(name,value)});B1=LOAD'cassandra://employees_pig2/employees_cf'USINGCassandraStorage()AS(key,columns:b

cassandra hadoop code section name apache-pig datastax-enterprise

java - Hadoop单节点安装报错

我正在尝试使用Java6在MacLion上安装hadoop-1.1.2。我按照这里的所有步骤http://hadoop.apache.org/docs/stable/single_node_setup.html但是当我执行start-all.sh时，只有namemode和jobtracker启动而不是datanode，secondarynode和tasktracker。这是输出:hadoop-1.1.2rachana$bin/start-all.shWarning:$HADOOP_HOMEisdeprecated.startingnamenode,loggingto/Users/rac

Hadoop java code section cassandra

hadoop - cassandra 上的 Nutch 2.3.1 无法启动

我正在尝试使用cassandra运行nutch2.3.1。按照http://wiki.apache.org/nutch/Nutch2Cassandra上的步骤操作.最后，当我尝试使用命令启动nutch时:bin/crawlurls/testhttp://localhost:8983/solr/2我得到以下异常:GeneratorJob:startingGeneratorJob:filtering:falseGeneratorJob:normalizing:falseGeneratorJob:topN:50000GeneratorJob:java.lang.RuntimeExceptio

cassandra hadoop GeneratorJob nutch code

hadoop - 如何从另一个列中填充 Cassandra 列族？

我一直读到，如果您的应用程序经常更改并且经常添加功能，Cassandra会很好。这是有道理的，因为您没有任何固定的架构，您可以向行添加列来满足您的需求，而不是运行ALTERTABLE查询，这可能会使您的数据库因非常大的表而卡住数小时。但是我有一个我无法解决的假设性问题。假设我有:CREATECOLUMNFAMILYStudentswithcomparator='CompositeType(UTF8Type,UTF8Type),andkey_validation_class=UUIDType;每个学生都有一些通用列(您知道，meta:username、meta:password、meta

Cassandra hadoop section class group