草庐IT

MAHOUT_OPTS

全部标签

hadoop - 如何使用基于 KNN 的项目推荐器从命令行运行 mahout?

我是驯象师的新手,仍在尝试解决问题。我正在尝试使用在hadoop集群(分布式推荐系统)中运行的mahout0.8来运行基于KNN的推荐系统。我使用的是mahout0.8,所以KNN已被弃用,但它仍然可用(至少当我用java代码制作它时)我有几个问题:基本上有两个mahout实现是真的吗?分布式(从命令行运行)非分布式(从jar文件运行)假设(1)是正确的,mahout是否支持从命令行运行基于KNN的推荐器?有人可以给我一个指导吗?假设(1)是错误的,我如何在java(我使用的是eclipse)中构建一个在hadoop集群(分布式)中运行的推荐系统?谢谢! 最

hadoop - 需要澄清有关 hadoop 的 mahout 用法

我目前在mahout中使用内存推荐api实现推荐器。但是,我想转向使用hadoop的分布式解决方案来计算离线推荐。这是我第一次使用hadoop,我正在寻找有关一些概念和api用法的说明。目前,我对hadoop的了解很少,我认为正确的做法是:使用像apachedrill这样的工具来用用户和项目数据填充hdfs。在mahouttrain中对来自hdfs的数据使用推荐作业。将hdfs中的结果数据转换为索引分片以供solr使用使用solr向用户群提供建议但是,我正在寻找有关此设计的几个方面的说明:我将如何按照在内存中实时推荐中使用的方式使用rescorer?调用推荐作业的最佳方式是什么?除了这

hadoop - 我如何在 Eclipse 中将 mahout 与 hadoop 一起使用?

我想使用eclipse开发我的项目,包括mahout-0.9和hadoop-2.2.0。我可以使用mahout-0.9成功运行我的代码。但我面临的问题是如何使用hadoopmod运行我的项目?我想我必须在我的电脑上安装hadoop,然后使用命令启动它。然后我可以使用hadoopmod在eclipse中运行我的项目。由于Mahout可以使用MAHOUT_LOCAL来确定localmod或linux中的hadoopmod。但是当我设置环境变量MAHOUT_LOCAL为""时,它也使用本地mod,为什么?如果无法在eclipse中使用hadoop运行mahout,我该如何运行我的项目?谢谢:

Hadoop 参数 mapreduce.map.memory.mb 和 mapreduce.map.java.opts

想知道这两个参数(mapreduce.map.memory.mb和mapreduce.map.java.opts)之间的关系是什么,有时我看到人们将mapreduce.map.memory.mb设置为2048和mapreduce.map.java.opts为-Xmx4G-Xms4G-server,想知道这种情况下的上限是多少?谢谢。问候,林 最佳答案 mapreduce.map.memory.mb是map的资源限制。mapreduce.map.java.opts是映射子jvms的堆大小。Hadoop设置更像是一种资源实现/控制,而J

hadoop - hadoop 是否需要运行 mahout-in-action 示例?

运行MahoutInAction示例需要hadoop吗?我看到有一个hadoopjar提供了mahout。我一直在使用build-reuters.sh时遇到问题,想知道是否需要单独安装hadoop。谢谢!! 最佳答案 MahoutinAction一书的大部分内容都涉及将ApacheMahout与ApacheHadoop结合使用。所以是的,您最终将需要Hadoop。本书指导您下载并安装Hadoop。Hadoop本身不随Mahout提供,不。但是Mahout的构建系统引用了Hadoop,因此它会自动下载Hadoop之类的依赖项。这是另一

solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

PS:如有错误,请指正我正在使用Nutch和Solr构建一个搜索引擎。我知道通过使用Solr,我可以提高搜索的效率-让Nutch单独爬取整个web。我也知道Hadoop是用来处理PB级数据的,通过形成集群和MapReduce。现在,我想知道的是1)因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑......Hadoop在我的情况下有什么好处,因为它形成了集群?如何在一台机器上形成集群?2)在我的案例中,MapReduce的重要性是什么?3)MAHOUT、CASSANDRA和HBASE将如何影响我的引擎???非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请向我道

java - 在 mahout 中编程

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭10年前。在mahout中执行程序的分步过程是什么

hadoop - 没有 hadoop 但有其他 MR 实现的 mahout

在Mahout中用不同的map-reduce实现(例如,内存中的map-reduce实现)替换hadoop是否容易?Mahout并行ML实现是否与Hadoop紧密结合且不可替代? 最佳答案 (用Java命名另一个MapReduce实现?)不,它与Hadoop紧密绑定(bind)。但是,Hadoop可以在本地运行。在内存中就像不使用磁盘一样?这听起来甚至不是分布式的,那么为什么要使用MapReduce?并非所有Mahout都使用Hadoop。这真的是您想要的吗? 关于hadoop-没有ha

hadoop - Apache Mahout 数据库到序列文件

我目前正在尝试使用驯象师。我购买了MahoutinAction这本书。整个过程已被理解,并且通过简单的测试数据集我已经成功了。现在我有一个分类问题想要解决。找到了目标变量,我暂时称之为x。我们数据库中的现有数据已经​​被分类为-1、0和+1。我们定义了几个使用SQL查询选择的预测变量。这些是产品的属性:语言、国家、类别(商店的)、标题、描述。现在我希望将它们直接写入SequenceFile,为此我编写了一个小助手类,每次处理SQL结果集的新行时,它都会附加到序列文件:publicvoidappendToFile(Stringclassification,StringdatabaseID

java - 在 hadoop 单节点集群中运行 mahout 20newsgroups 时出错

我配置了一个hadoop1.2.1单节点集群并安装了mahout0.8。节点似乎工作正常。我正在尝试在运行cnaivebayes分类器的hadoop集群上运行20newsgroupsmahout示例。问题是我收到以下错误:13/11/1218:31:46INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF-8],--chunkSize=[64],--endPhase=[2147483647],--fileFilterClass=[org.apache.mahout.text.PrefixAdditionFilter],-