集群NoSQL

Java + Hadoop + NoSql(使用什么组合)

我是新手，我的要求如下:我想处理带有电影评级(文本格式)的庞大文本数据集，并将它们存储在一些NoSQL数据库中，然后进行一些处理并推荐给定一部特定电影的电影。所以我需要速度-我认为Hadoop会在这方面帮助我，而将数据保存在NoSQL数据库中会进一步帮助提高速度。我想知道其他一些方法是否广为人知以及Java使用了哪些组合谢谢最佳答案有多大才算大？您可能想查看ApacheMahout.它具有非常有效的数据结构，正是为了这个目的——为协同过滤算法存储和处理稀疏数据。它将在中等规模的机器上处理大约1000万个评级的数据集+如果您的数据

eclipse-plugin - 从 eclipse 访问 Hadoop 集群

我只是按照Hadoop(0.20.2)安装教程进行了设置。我可以通过eclipse在集群上运行mapreduce程序。现在我的问题是如何从我的本地系统连接到Hadoop集群。本地系统是windows7，我已经为Hadoop安装了eclipse插件。我试图从我的本地系统windows连接到Hadoop(我的本地系统和Hadoop系统在同一个子网中)。连接到Hadoop服务器时出现连接超时错误。在Hadoop的配置文件中我给出了实际的IP地址。不确定我错过了哪一步？最佳答案我最近读到，eclipse插件根本不起作用。但是您可以简单地

eclipse eclipse-plugin section Hadoop hadoop-plugins

Hadoop集群有一些磁盘空间不足的节点~

我现在拥有一个有12个节点的集群。其中一些，特别是8个节点，有足够的磁盘空间。但是其他4个只有很小的空间可以使用。但是，其他4个节点的RAM和CPU配置仍然很高。所以我的意图是利用这些资源。但是现在，当我运行一个算法SlopeOne时，map将输出如此多的中间数据并将它们存储在磁盘上。因此存在一些错误，我将其粘贴在此说明下。我想知道:如果一个节点发现它不能在本地存储数据，它会尝试将数据存储到其他有足够磁盘空间的节点吗？如果单个节点在本地存储数据失败，是否会重新开始工作？如果一些有足够磁盘空间的节点先完成一个映射作业，它会继续运行分配给低磁盘空间节点的作业吗？我知道我可以设置一个参数，它

Hadoop 集群 MapTask apache mapreduce hdfs

java - 在 Hadoop 集群(一个名称节点，12 个数据节点)上完成没有映射和缩减的 hadoop 作业

我写了一个hadoop程序，在单机上运行，效果很好。但是当我将它迁移到一个集群(一个名称节点，12个数据节点)时遇到了以下问题(作业没有启动并在map启动后立即完成)命令在终端上运行:hadoopjarVOConeSearch.jarinputoutput142.82-3.321(这里input是hdfs中的一个目录用于输入，output是程序写入的hdfs目录，执行前hdfs中没有输出目录，142.82,-3.32,1是三个额外的参数)集群信息当我运行程序时，输入目录包含167537个文件11/06/1109:33:49INFOsecurity.Groups:Groupmappi

缩减 Hadoop mapreduce 11 job java jobs

configuration - 在单节点集群上确定 Hadoop Conf 设置的一般方法

我想知道如何最好地确定适当数量的map和reduce任务以及JVM堆的相应最大大小？对于那些刚接触Hadoop的人来说，这些是在mapred-site.xml文件。有没有我可以根据(虚拟)内核和RAM的数量遵循的通用公式？在您的回复中，请考虑在作业之前/期间创建的各种其他Hadoop进程处理及其对RAM使用的影响(参见:https://forums.aws.amazon.com/thread.jspa?threadID=49024)从单机集群到双机集群，如何应对变化？最佳答案时间已经过去，没有人试图制定一个答案。所以我会提出一些

configuration Hadoop section 的 configuration-files task configuration-management

nosql - NoSQL 上的文件 I/O - 特别是 HBase - 是否推荐？或不？

我是NoSQL的新手，现在我正在尝试使用HBase用于文件存储。我会将文件以二进制形式存储在HBase中。我不需要任何统计数据，只需要文件存储。是否推荐？我担心I/O速度。我使用HBase作为存储的原因是我必须使用HDFS，但我无法在客户端计算机上构建Hadoop。因此，我试图找到一些库来帮助客户端连接到HDFS以获取文件。但是我找不到它，我只是选择了HBase而不是连接库。遇到这种情况，我该怎么办？最佳答案我不知道Hadoop，但MongoDB有GridFS，它专为分布式文件存储而设计，使您能够水平扩展、“免费”获得复制等。h

别是 nosql section HBase noreferrer hadoop hdfs

hadoop - Hbase Hadoop 集群.. java.io.IOException : java. lang.NoSuchMethodExceptio

我正在尝试设置一个在hadoop集群之上运行的hbase集群。两个集群都已启动并正在运行，但是当我尝试在Hbase客户端中创建表时..在日志中看到以下错误!!compute-0-11:是hadoop集群的名称节点。2012-03-1801:18:54,696WARNorg.apache.hadoop.hbase.util.FSUtils:Unabletocreateversionfileathdfs://compute-0-11:9000/hbase,retrying:java.io.IOException:java.lang.NoSuchMethodException:org.apa

NoSuchMethodExceptio java hadoop section hbase

hadoop - 与 Hadoop 共享集群

是否可以设置Hadoop使其与集群上的其他应用程序很好地协同工作？我熟悉Torque+Maui资源调度程序，并熟悉使用HadoopOnDemand来配置临时Hadoop集群。但是，如果很多人都想使用Hadoop，那将变得非常麻烦:每个人都对设置和拆除自己的迷你hadoop集群、在自己的HDFS上复制数据等感到头疼。如果我们可以拥有一个永久运行的Hadoop实例供人们共享，并且HDFS始终处于运行状态，那将会更酷。这将需要Hadoop智能地将工作分配给不忙于处理其他应用程序(例如R)的节点，并且在排队作业时不要过于贪婪。这可能吗？最佳答案

hadoop section cluster-computing torque

hadoop - 如何在 Hadoop 集群中配置和使用多主节点？

谁能告诉我们如何在Hadoop集群中配置和使用多主节点？最佳答案如果您正在寻找多个NameNode，请检查HDFShighavailability和HDFSfederation.两者都应该在2xHadooprelease中可用.JobTracker1xHadooprelease中多了一个master，一个集群中只能有一个JobTracker。顺便说一句，JobTracker功能已在2xHadoop版本中拆分。检查this了解更多详情。可能还有其他一些替代选项，但这取决于拥有多个主控的要求。是可用性、可扩展性还是其他？

何在 hadoop section noreferrer noopener

hadoop - 如何将mac连接到hadoop/hdfs集群

我有用于在集群中运行的CDH，并且我可以通过ssh访问机器。我需要将我的Mac连接到集群，所以如果我执行hadoopfs-ls，它应该会显示集群的内容。我配置了HADOOP_CONF指向集群的配置。我在我的集群中运行CDH4。我在这里遗漏了什么吗，可以连接吗？我需要做一些sshkey设置吗？最佳答案您需要确保执行此操作的一些事项:您需要将您的HADOOP_CONF_DIR环境变量设置为指向一个目录，该目录包含指向您的集群的配置XML。您的Mac应该能够直接访问构成集群的主机(所有主机)。这可以通过VPN完成，例如-如果集群不

hadoop hdfs section 中运 cloudera

271 272 273274275 276 277