草庐IT

集群NoSQL

全部标签

Java + Hadoop + NoSql(使用什么组合)

我是新手,我的要求如下:我想处理带有电影评级(文本格式)的庞大文本数据集,并将它们存储在一些NoSQL数据库中,然后进行一些处理并推荐给定一部特定电影的电影。所以我需要速度-我认为Hadoop会在这方面帮助我,而将数据保存在NoSQL数据库中会进一步帮助提高速度。我想知道其他一些方法是否广为人知以及Java使用了哪些组合谢谢 最佳答案 有多大才算大?您可能想查看ApacheMahout.它具有非常有效的数据结构,正是为了这个目的——为协同过滤算法存储和处理稀疏数据。它将在中等规模的机器上处理大约1000万个评级的数据集+如果您的数据

eclipse-plugin - 从 eclipse 访问 Hadoop 集群

我只是按照Hadoop(0.20.2)安装教程进行了设置。我可以通过eclipse在集群上运行mapreduce程序。现在我的问题是如何从我的本地系统连接到Hadoop集群。本地系统是windows7,我已经为Hadoop安装了eclipse插件。我试图从我的本地系统windows连接到Hadoop(我的本地系统和Hadoop系统在同一个子网中)。连接到Hadoop服务器时出现连接超时错误。在Hadoop的配置文件中我给出了实际的IP地址。不确定我错过了哪一步? 最佳答案 我最近读到,eclipse插件根本不起作用。但是您可以简单地

Hadoop集群有一些磁盘空间不足的节点~

我现在拥有一个有12个节点的集群。其中一些,特别是8个节点,有足够的磁盘空间。但是其他4个只有很小的空间可以使用。但是,其他4个节点的RAM和CPU配置仍然很高。所以我的意图是利用这些资源。但是现在,当我运行一个算法SlopeOne时,map将输出如此多的中间数据并将它们存储在磁盘上。因此存在一些错误,我将其粘贴在此说明下。我想知道:如果一个节点发现它不能在本地存储数据,它会尝试将数据存储到其他有足够磁盘空间的节点吗?如果单个节点在本地存储数据失败,是否会重新开始工作?如果一些有足够磁盘空间的节点先完成一个映射作业,它会继续运行分配给低磁盘空间节点的作业吗?我知道我可以设置一个参数,它

java - 在 Hadoop 集群(一个名称节点,12 个数据节点)上完成没有映射和缩减的 hadoop 作业

我写了一个hadoop程序,在单机上运行,​​效果很好。但是当我将它迁移到一个集群(一个名称节点,12个数据节点)时遇到了以下问题(作业没有启动并在map启动后立即完成)命令在终端上运行:hadoopjarVOConeSearch.jarinputoutput142.82-3.321(这里input是hdfs中的一个目录用于输入,output是程序写入的hdfs目录,执行前hdfs中没有输出目录,142.82,-3.32,1是三个额外的参数)集群信息当我运行程序时,输入目录包含167537个文件11/06/1109:33:49INFOsecurity.Groups:Groupmappi

configuration - 在单节点集群上确定 Hadoop Conf 设置的一般方法

我想知道如何最好地确定适当数量的map和reduce任务以及JVM堆的相应最大大小?对于那些刚接触Hadoop的人来说,这些是在mapred-site.xml文件。有没有我可以根据(虚拟)内核和RAM的数量遵循的通用公式?在您的回复中,请考虑在作业之前/期间创建的各种其他Hadoop进程处理及其对RAM使用的影响(参见:https://forums.aws.amazon.com/thread.jspa?threadID=49024)从单机集群到双机集群,如何应对变化? 最佳答案 时间已经过去,没有人试图制定一个答案。所以我会提出一些

nosql - NoSQL 上的文件 I/O - 特别是 HBase - 是否推荐?或不?

我是NoSQL的新手,现在我正在尝试使用HBase用于文件存储。我会将文件以二进制形式存储在HBase中。我不需要任何统计数据,只需要文件存储。是否推荐?我担心I/O速度。我使用HBase作为存储的原因是我必须使用HDFS,但我无法在客户端计算机上构建Hadoop。因此,我试图找到一些库来帮助客户端连接到HDFS以获取文件。但是我找不到它,我只是选择了HBase而不是连接库。遇到这种情况,我该怎么办? 最佳答案 我不知道Hadoop,但MongoDB有GridFS,它专为分布式文件存储而设计,使您能够水平扩展、“免费”获得复制等。h

hadoop - Hbase Hadoop 集群.. java.io.IOException : java. lang.NoSuchMethodExceptio

我正在尝试设置一个在hadoop集群之上运行的hbase集群。两个集群都已启动并正在运行,但是当我尝试在Hbase客户端中创建表时..在日志中看到以下错误!!compute-0-11:是hadoop集群的名称节点。2012-03-1801:18:54,696WARNorg.apache.hadoop.hbase.util.FSUtils:Unabletocreateversionfileathdfs://compute-0-11:9000/hbase,retrying:java.io.IOException:java.lang.NoSuchMethodException:org.apa

hadoop - 与 Hadoop 共享集群

是否可以设置Hadoop使其与集群上的其他应用程序很好地协同工作?我熟悉Torque+Maui资源调度程序,并熟悉使用HadoopOnDemand来配置临时Hadoop集群。但是,如果很多人都想使用Hadoop,那将变得非常麻烦:每个人都对设置和拆除自己的迷你hadoop集群、在自己的HDFS上复制数据等感到头疼。如果我们可以拥有一个永久运行的Hadoop实例供人们共享,并且HDFS始终处于运行状态,那将会更酷。这将需要Hadoop智能地将工作分配给不忙于处理其他应用程序(例如R)的节点,并且在排队作业时不要过于贪婪。这可能吗? 最佳答案

hadoop - 如何在 Hadoop 集群中配置和使用多主节点?

谁能告诉我们如何在Hadoop集群中配置和使用多主节点? 最佳答案 如果您正在寻找多个NameNode,请检查HDFShighavailability和HDFSfederation.两者都应该在2xHadooprelease中可用.JobTracker1xHadooprelease中多了一个master,一个集群中只能有一个JobTracker。顺便说一句,JobTracker功能已在2xHadoop版本中拆分。检查this了解更多详情。可能还有其他一些替代选项,但这取决于拥有多个主控的要求。是可用性、可扩展性还是其他?

hadoop - 如何将mac连接到hadoop/hdfs集群

我有用于在集群中运行的CDH,并且我可以通过ssh访问机器。我需要将我的Mac连接到集群,所以如果我执行hadoopfs-ls,它应该会显示集群的内容。我配置了HADOOP_CONF指向集群的配置。我在我的集​​群中运行CDH4。我在这里遗漏了什么吗,可以连接吗?我需要做一些sshkey设置吗? 最佳答案 您需要确保执行此操作的一些事项:您需要将您的HADOOP_CONF_DIR环境变量设置为指向一个目录,该目录包含指向您的集群的配置XML。您的Mac应该能够直接访问构成集群的主机(所有主机)。这可以通过VPN完成,例如-如果集群不