草庐IT

Cassandra-cli

全部标签

hadoop - 如何在配置单元 cli/beeline 中将 textinputformat.record.delimiter 重置为其默认值?

将textinputformat.record.delimiter设置为非默认值,对于加载多行文本很有用,如下面的演示所示。但是,我无法在不退出cli并重新打开它的情况下将此参数设置回其默认值。以下选项均无效(其他一些试验也无效)settextinputformat.record.delimiter='\n';settextinputformat.record.delimiter='\r';settextinputformat.record.delimiter='\r\n';settextinputformat.record.delimiter='';reset;有什么想法吗?谢谢演示

java - Hadoop NoSuchMethodError apache.commons.cli

我正在使用hadoop-2.7.2,我用IntelliJ做了一个MapReduceJob。在我的工作中,我正在使用apache.commons.cli-1.3.1并将lib放入jar中。当我在我的Hadoop集群上使用MapReduceJob时,我有一个NoSuchMethodError:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.commons.cli.Option.builder(Ljava/lang/String;)Lorg/apache/commons/cli/Option$Builder;我不明白

hadoop - Cassandra 和 MapReduce - 最低设置要求

我需要在我的Cassandra集群上执行MapReduce,包括数据局部性,即。每个作业仅查询属于作业运行的本地Casandra节点的行。存在关于如何在较旧的Cassandra版本(0.7)上为MR设置Hadoop的教程。我找不到当前版本的此类内容。自0.7以来在这方面发生了什么变化?最小设置(Hadoop+HDFS+...)需要哪些软件模块?我需要CassandraEnterprise吗? 最佳答案 Cassandra包含一些足以与Hadoop集成的类:ColumnFamilyInputFormat-这是Map函数的输入,当使用C

hadoop - Cassandra 和 Hive

我是cassandra和Hive的新手。现在我想将cassandra与Hadoop-Hive集成,但如何将cassandra与Hive集成。 最佳答案 您很幸运:DataStax刚刚发布了Brisk,这是一个集成了Hadoop和Hive的Cassandra发行版。http://www.datastax.com/products/brisk 关于hadoop-Cassandra和Hive,我们在StackOverflow上找到一个类似的问题: https://s

hadoop - Cassandra + Solr/Hadoop/Spark - 选择合适的工具

我目前正在研究如何存储和分析每行最多1000列的基于时间的丰富数据。目前,DatastaxEnterprise提供的Cassandra和Solr、Hadoop或Spark似乎基本可以满足我的要求。但细节决定成败。在1000列中,大约60列用于类似实时的查询(网络前端、用户发送表单并期望快速响应)。这些查询或多或少是GROUPBY语句,其中计算了次数或出现次数。由于Cassandra本身不提供所需的分析功能(没有GROUPBY),我只剩下这些替代方案:通过Cassandra粗略查询并在自写代码中过滤结果集使用Solr索引数据并运行facet.pivot查询使用Hadoop或Spark并运

java - 如何使用亚马逊的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如ma​​pred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言如ruby或python运行时,我们可以使用以下方式来指定这些配置:rubyelastic-mapreduce-j--stream--step-name"mystream"--jobconfmapred.task.timeout=0--jobconfmapred.min.split.size=52880--mappers3://somepath/mapper.rb--reducers3:somepath

nosql - 实时查询/聚合数百万条记录 - hadoop?数据库? Cassandra ?

我有一个可以并行化的解决方案,但我(还)没有使用hadoop/nosql的经验,而且我不确定哪个解决方案最适合我的需求。理论上,如果我有无限的CPU,我的结果应该会立即返回。因此,任何帮助将不胜感激。谢谢!这是我所拥有的:1000多个数据集数据集键:所有数据集都有相同的键100万个key(以后可能是10或2000万个)数据集列:每个数据集都有相同的列10到20列大多数列是我们需要聚合的数值(avg、stddev,并使用R来计算统计数据)有几列是“type_id”列,因为在特定查询中我们可能只想包含某些type_ids网络应用程序用户可以选择他们感兴趣的数据集(15到1000之间的任何一

hadoop - 在一致性 ONE 下读取查询期间 Cassandra 超时(需要 1 个响应,但只有 0 个副本响应)

我在一个有500000行的表上执行读取和更新查询,有时在处理大约300000行后出现错误,即使没有节点关闭也是如此。CassandratimeoutduringreadqueryatconsistencyONE(1responseswererequiredbutonly0replicaresponded)基础设施详情:拥有5个Cassandra节点、5个Spark节点和3个Hadoop节点,每个节点具有8个内核和28GB内存,Cassandra复制因子为3。Cassandra2.1.8.621|DSE4.7.1|星火1.2.1|Hadoop2.7.1。Cassandra配置:read_

Cassandra 数据库上的 Hadoop

我正在使用Cassandra来存储我的数据,并使用Hive来处理我的数据。我有5台机器我已经设置了cassandra和2台机器我用作分析节点(配置单元运行的地方)所以我想问的是hive是否只在两台机器(分析节点)上做mapreduce并将数据带到那里,或者它将过程/计算也移动到5个cassandra节点并处理/计算这些机器上的数据。(我所知道的在hadoop中,进程移动到数据而不是要处理的数据)。 最佳答案 如果您有兴趣将Hadoop和Cassandra结合起来-第一个链接应该是围绕此概念构建的DataStax公司。http://w

java - zookeeper 客户端不向 CLI 提供 "jline support is disabled"消息

我刚刚启动了CDH5.4并安装了zookeeper。我之前多次成功使用zkCli。这次命令行启动在进入提示符之前停止WelcometoZooKeeper!JLinesupportisdisabled2015-05-0418:18:33,936[myid:]-INFO[main-SendThread(localhost:2181):ClientCnxn$SendThread@975]-Openingsocketconnectiontoserverlocalhost/127.0.0.1:2181.WillnotattempttoauthenticateusingSASL(unknowner