草庐IT

集群NoSQL

全部标签

algorithm - 动态聚合集群?平面上的点

问题:我有数百万(10+)个标记,每个标记都有不同的字段:1.lat2.lng3.area(double)4.size(int)5.tolerance(double)6.lags(boolean)7.channel(boolean)...(more)现在,我希望每个集群都具有以下聚合数据:1.numberofmarkers2.minarea3.maxarea4.avgarea5.minsize6.maxsize7.avgsize8.tolerancedistribution(howmanywhereoftolerance=X=Y集群是根据标记的纬度、经度(距离方面)和缩放级别(整数)创

eclipse - 使用运行对话框 (F11) 在 Eclipse 中的远程集群上启动 Hadoop Map Reduce 作业

是否可以使用EclipseRunDialog(F11)在远程集群上启动MapReduce作业?目前我必须使用外部工具链对话框和Maven来运行它。注意:要在本地集群上执行它与RunDialog没什么大不了的。但是对于远程连接,必须有一个已编译的JAR。否则你会得到一个ClassNotFoundException(如果设置了Jar-By-Class)我们当前的设置是:Spring-Data-Hadoop1.0.0STS-Springsource工具套件专家CDH4这是我们在applicationContext.xml上设置的(这是您在vanillahadoop上的*-site.xml中指

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

hadoop - Hive 作业在 cassandra 集群上无法正常运行,reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时,映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列,每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

hadoop - 在内部,在安装的 hadoop 和 hive 集群中,发生了什么?

我有一个4节点集群,我在所有节点中安装了Hive(1个名称节点和3个数据节点)。我正在访问名称节点。当我想放一个文件时会发生什么。在内部名称节点和数据节点之间发生了什么?同样,当我想通过数据节点放置一个文件时会发生什么?我们在Hive中创建的表存储在哪里? 最佳答案 我建议看一下thisexcellentcomiconhowHDFSworks.总结发生的事情:客户端知道block大小(默认64Mb),因此它首先将您的文件拆分为由该block大小定义的block。然后对于每个block,它将向NameNode发送一个查询,询问它可以将

hadoop - 在 Hadoop 集群中的节点之间共享配置文件

我有一个3节点hadoop集群,我想知道如何在所有3个节点之间共享配置文件(如hadoop-env.sh)。我是否必须在每个节点中手动更新它们,或者如果我在主节点中更改它就足够了吗?谢谢。 最佳答案 不幸的是,您必须在每个需要更改的节点上手动(或通过管理实用程序)更新配置。 关于hadoop-在Hadoop集群中的节点之间共享配置文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions

hadoop - (HDFS) 如何在集群内安全复制大数据?

我必须制作大样本数据(比如1TB)并且有大约20GB的文本文件。所以我尝试只复制50次以使其更大,但每次我尝试hadoopfs-cp命令时,我的一些数据节点都会死掉。我听说在UNIX中,删除大数据时可以使用SHRINK安全地从磁盘中删除数据。hadoop中有类似的东西来复制大数据吗?简而言之,有什么方法可以在hadoop集群内安全地复制大数据?还是我必须修改一些配置文件? 最佳答案 试试distcp。它在后台运行MR作业以复制数据,使我们能够利用Hadoop提供的并行性。 关于hadoo

java - 需要建议! Java 的集群程序?

我正在寻找可以并行计算Java作业的集群程序。我查看了Rockscluster和Hadoop。使用Rockscluster的问题是它需要Unix中的脚本来并行运行计算。但是,我想做的是将作业发送给Java本身的工作人员,以便工作人员计算它们并返回值。这是因为我的工作是由许多不同的用户决定的,你不能在运行这些工作之前写脚本。此外,使用Hadoop的问题在于它使用了Map-reduce工具,但我认为我的Java工作并没有从Map-reduce方案中受益。我想要的很简单。我想将工作发送给工作人员(其他计算机节点)并接收结果。我发送给worker的所有工作都是独立的(所以我不必担心依赖btw工

java - 在 hadoop 单节点集群中运行 mahout 20newsgroups 时出错

我配置了一个hadoop1.2.1单节点集群并安装了mahout0.8。节点似乎工作正常。我正在尝试在运行cnaivebayes分类器的hadoop集群上运行20newsgroupsmahout示例。问题是我收到以下错误:13/11/1218:31:46INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF-8],--chunkSize=[64],--endPhase=[2147483647],--fileFilterClass=[org.apache.mahout.text.PrefixAdditionFilter],-

java - Hadoop 配置 - 集群

Hadoop文件core-site.xml和mapred-site.xml的正确设置是什么?因为我正在尝试运行hadoop但出现以下错误:启动secondarynamenode,记录到/opt/hadoop/hadoop-1.2.1/libexec/../logs/hadoop-hadoop-secondarynamenode-lbad012.outlbad012:线程“main”中的异常java.lang.IllegalArgumentException:不包含有效主机:端口授权:文件:///lbad012:在org.apache.hadoop.net.NetUtils.create