MAHOUT_OPTS

hadoop - 如何使用基于 KNN 的项目推荐器从命令行运行 mahout？

我是驯象师的新手，仍在尝试解决问题。我正在尝试使用在hadoop集群(分布式推荐系统)中运行的mahout0.8来运行基于KNN的推荐系统。我使用的是mahout0.8，所以KNN已被弃用，但它仍然可用(至少当我用java代码制作它时)我有几个问题:基本上有两个mahout实现是真的吗？分布式(从命令行运行)非分布式(从jar文件运行)假设(1)是正确的，mahout是否支持从命令行运行基于KNN的推荐器？有人可以给我一个指导吗？假设(1)是错误的，我如何在java(我使用的是eclipse)中构建一个在hadoop集群(分布式)中运行的推荐系统？谢谢! 最

hadoop - 需要澄清有关 hadoop 的 mahout 用法

我目前在mahout中使用内存推荐api实现推荐器。但是，我想转向使用hadoop的分布式解决方案来计算离线推荐。这是我第一次使用hadoop，我正在寻找有关一些概念和api用法的说明。目前，我对hadoop的了解很少，我认为正确的做法是:使用像apachedrill这样的工具来用用户和项目数据填充hdfs。在mahouttrain中对来自hdfs的数据使用推荐作业。将hdfs中的结果数据转换为索引分片以供solr使用使用solr向用户群提供建议但是，我正在寻找有关此设计的几个方面的说明:我将如何按照在内存中实时推荐中使用的方式使用rescorer？调用推荐作业的最佳方式是什么？除了这

hadoop 澄清 item 的 Solr machine-learning bigdata mahout mahout-recommender

hadoop - 我如何在 Eclipse 中将 mahout 与 hadoop 一起使用？

我想使用eclipse开发我的项目，包括mahout-0.9和hadoop-2.2.0。我可以使用mahout-0.9成功运行我的代码。但我面临的问题是如何使用hadoopmod运行我的项目？我想我必须在我的电脑上安装hadoop，然后使用命令启动它。然后我可以使用hadoopmod在eclipse中运行我的项目。由于Mahout可以使用MAHOUT_LOCAL来确定localmod或linux中的hadoopmod。但是当我设置环境变量MAHOUT_LOCAL为""时，它也使用本地mod，为什么？如果无法在eclipse中使用hadoop运行mahout，我该如何运行我的项目？谢谢:

hadoop 何在 mahout import mahout-recommender

Hadoop 参数 mapreduce.map.memory.mb 和 mapreduce.map.java.opts

想知道这两个参数(mapreduce.map.memory.mb和mapreduce.map.java.opts)之间的关系是什么，有时我看到人们将mapreduce.map.memory.mb设置为2048和mapreduce.map.java.opts为-Xmx4G-Xms4G-server，想知道这种情况下的上限是多少？谢谢。问候，林最佳答案 mapreduce.map.memory.mb是map的资源限制。mapreduce.map.java.opts是映射子jvms的堆大小。Hadoop设置更像是一种资源实现/控制，而J

mapreduce map section hadoop memory memory-management jvm hadoop-yarn

hadoop - hadoop 是否需要运行 mahout-in-action 示例？

运行MahoutInAction示例需要hadoop吗？我看到有一个hadoopjar提供了mahout。我一直在使用build-reuters.sh时遇到问题，想知道是否需要单独安装hadoop。谢谢!! 最佳答案 MahoutinAction一书的大部分内容都涉及将ApacheMahout与ApacheHadoop结合使用。所以是的，您最终将需要Hadoop。本书指导您下载并安装Hadoop。Hadoop本身不随Mahout提供，不。但是Mahout的构建系统引用了Hadoop，因此它会自动下载Hadoop之类的依赖项。这是另一

hadoop mahout-in-action section Mahout

solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

PS:如有错误，请指正我正在使用Nutch和Solr构建一个搜索引擎。我知道通过使用Solr，我可以提高搜索的效率-让Nutch单独爬取整个web。我也知道Hadoop是用来处理PB级数据的，通过形成集群和MapReduce。现在，我想知道的是1)因为，我将只在一台机器上运行这些开源软件，即我在本地主机上的笔记本电脑......Hadoop在我的情况下有什么好处，因为它形成了集群？如何在一台机器上形成集群？2)在我的案例中，MapReduce的重要性是什么？3)MAHOUT、CASSANDRA和HBASE将如何影响我的引擎？？？非常感谢这方面的任何帮助。如果我问了一个菜鸟问题，请向我道

MapReduce Hadoop blockquote section solr nutch mahout

java - 在 mahout 中编程

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭10年前。在mahout中执行程序的分步过程是什么

mahout java section notice class eclipse hadoop

hadoop - 没有 hadoop 但有其他 MR 实现的 mahout

在Mahout中用不同的map-reduce实现(例如，内存中的map-reduce实现)替换hadoop是否容易？Mahout并行ML实现是否与Hadoop紧密结合且不可替代？最佳答案 (用Java命名另一个MapReduce实现？)不，它与Hadoop紧密绑定(bind)。但是，Hadoop可以在本地运行。在内存中就像不使用磁盘一样？这听起来甚至不是分布式的，那么为什么要使用MapReduce？并非所有Mahout都使用Hadoop。这真的是您想要的吗？关于hadoop-没有ha

hadoop mahout section in-memory

hadoop - Apache Mahout 数据库到序列文件

我目前正在尝试使用驯象师。我购买了MahoutinAction这本书。整个过程已被理解，并且通过简单的测试数据集我已经成功了。现在我有一个分类问题想要解决。找到了目标变量，我暂时称之为x。我们数据库中的现有数据已经被分类为-1、0和+1。我们定义了几个使用SQL查询选择的预测变量。这些是产品的属性:语言、国家、类别(商店的)、标题、描述。现在我希望将它们直接写入SequenceFile，为此我编写了一个小助手类，每次处理SQL结果集的新行时，它都会附加到序列文件:publicvoidappendToFile(Stringclassification,StringdatabaseID

hadoop Apache section String Text classification mahout

java - 在 hadoop 单节点集群中运行 mahout 20newsgroups 时出错

我配置了一个hadoop1.2.1单节点集群并安装了mahout0.8。节点似乎工作正常。我正在尝试在运行cnaivebayes分类器的hadoop集群上运行20newsgroupsmahout示例。问题是我收到以下错误:13/11/1218:31:46INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF-8],--chunkSize=[64],--endPhase=[2147483647],--fileFilterClass=[org.apache.mahout.text.PrefixAdditionFilter],-

中运时出 java hadoop mahout unix mapreduce

6 7 8910 11 12