集群NoSQL

algorithm - 动态聚合集群？平面上的点

问题:我有数百万(10+)个标记，每个标记都有不同的字段:1.lat2.lng3.area(double)4.size(int)5.tolerance(double)6.lags(boolean)7.channel(boolean)...(more)现在，我希望每个集群都具有以下聚合数据:1.numberofmarkers2.minarea3.maxarea4.avgarea5.minsize6.maxsize7.avgsize8.tolerancedistribution(howmanywhereoftolerance=X=Y集群是根据标记的纬度、经度(距离方面)和缩放级别(整数)创

面上 algorithm section code clusters hadoop machine-learning cluster-analysis computational-geometry

eclipse - 使用运行对话框 (F11) 在 Eclipse 中的远程集群上启动 Hadoop Map Reduce 作业

是否可以使用EclipseRunDialog(F11)在远程集群上启动MapReduce作业？目前我必须使用外部工具链对话框和Maven来运行它。注意:要在本地集群上执行它与RunDialog没什么大不了的。但是对于远程连接，必须有一个已编译的JAR。否则你会得到一个ClassNotFoundException(如果设置了Jar-By-Class)我们当前的设置是:Spring-Data-Hadoop1.0.0STS-Springsource工具套件专家CDH4这是我们在applicationContext.xml上设置的(这是您在vanillahadoop上的*-site.xml中指

eclipse section code strong hadoop spring-data sts-springsourcetoolsuite

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复，但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop？我是hadoop的新手，所以我不知道所有可能的命令行选项。

hadoop hadoop-mapreduce-client-core section jar java-opts

hadoop - Hive 作业在 cassandra 集群上无法正常运行，reducer 卡住

我有6个节点的datastaxcassandra集群(3个cassandra-3个分析)。我正在使用配置单元生成报告。问题是当我使用count(*)或按查询分组运行配置单元作业时，映射器完成但缩减器卡在特定百分比。而且它们永远不会改变。(所有节点都有60GB的数据。我运行hive的列族在每个节点上有大约40GB并且有15列，每列的数据大小为50,60个字符。我使用的是默认的hive设置。)还有他们的信息可用时间与配置单元作业(正常查询)的数据大小。我可以在网上找到。是这样的查询非常简单——selectcount(*)fromtable;它有30万行。StartingJob=job_20

卡住 cassandra 34 Cumulative Stage hadoop hive datastax-enterprise

hadoop - 在内部，在安装的 hadoop 和 hive 集群中，发生了什么？

我有一个4节点集群，我在所有节点中安装了Hive(1个名称节点和3个数据节点)。我正在访问名称节点。当我想放一个文件时会发生什么。在内部名称节点和数据节点之间发生了什么？同样，当我想通过数据节点放置一个文件时会发生什么？我们在Hive中创建的表存储在哪里？最佳答案我建议看一下thisexcellentcomiconhowHDFSworks.总结发生的事情:客户端知道block大小(默认64Mb)，因此它首先将您的文件拆分为由该block大小定义的block。然后对于每个block，它将向NameNode发送一个查询，询问它可以将

hadoop 在内 block section li hive

hadoop - 在 Hadoop 集群中的节点之间共享配置文件

我有一个3节点hadoop集群，我想知道如何在所有3个节点之间共享配置文件(如hadoop-env.sh)。我是否必须在每个节点中手动更新它们，或者如果我在主节点中更改它就足够了吗？谢谢。最佳答案不幸的是，您必须在每个需要更改的节点上手动(或通过管理实用程序)更新配置。关于hadoop-在Hadoop集群中的节点之间共享配置文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions

hadoop section 点中

hadoop - (HDFS) 如何在集群内安全复制大数据？

我必须制作大样本数据(比如1TB)并且有大约20GB的文本文件。所以我尝试只复制50次以使其更大，但每次我尝试hadoopfs-cp命令时，我的一些数据节点都会死掉。我听说在UNIX中，删除大数据时可以使用SHRINK安全地从磁盘中删除数据。hadoop中有类似的东西来复制大数据吗？简而言之，有什么方法可以在hadoop集群内安全地复制大数据？还是我必须修改一些配置文件？最佳答案试试distcp。它在后台运行MR作业以复制数据，使我们能够利用Hadoop提供的并行性。关于hadoo

大数何在 section hadoop hdfs

java - 需要建议! Java 的集群程序？

我正在寻找可以并行计算Java作业的集群程序。我查看了Rockscluster和Hadoop。使用Rockscluster的问题是它需要Unix中的脚本来并行运行计算。但是，我想做的是将作业发送给Java本身的工作人员，以便工作人员计算它们并返回值。这是因为我的工作是由许多不同的用户决定的，你不能在运行这些工作之前写脚本。此外，使用Hadoop的问题在于它使用了Map-reduce工具，但我认为我的Java工作并没有从Map-reduce方案中受益。我想要的很简单。我想将工作发送给工作人员(其他计算机节点)并接收结果。我发送给worker的所有工作都是独立的(所以我不必担心依赖btw工

java result strong Multiplecal hadoop parallel-processing grid cluster-computing

java - 在 hadoop 单节点集群中运行 mahout 20newsgroups 时出错

我配置了一个hadoop1.2.1单节点集群并安装了mahout0.8。节点似乎工作正常。我正在尝试在运行cnaivebayes分类器的hadoop集群上运行20newsgroupsmahout示例。问题是我收到以下错误:13/11/1218:31:46INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF-8],--chunkSize=[64],--endPhase=[2147483647],--fileFilterClass=[org.apache.mahout.text.PrefixAdditionFilter],-

中运时出 java hadoop mahout unix mapreduce

java - Hadoop 配置 - 集群

Hadoop文件core-site.xml和mapred-site.xml的正确设置是什么？因为我正在尝试运行hadoop但出现以下错误:启动secondarynamenode，记录到/opt/hadoop/hadoop-1.2.1/libexec/../logs/hadoop-hadoop-secondarynamenode-lbad012.outlbad012:线程“main”中的异常java.lang.IllegalArgumentException:不包含有效主机:端口授权:文件:///lbad012:在org.apache.hadoop.net.NetUtils.create

Hadoop java SecondaryNameNode section apache configuration cluster-computing

272 273 274275276 277 278