草庐IT

mahout-recommender

全部标签

hadoop - 尝试在 Hadoop 上运行 Mahout 测试分类器时出现 "GC overhead limit exceeded"

我在Linux上使用Hadoop版本0.20.2。我正在尝试使用以下命令测试分类器模型:bin/hadoopjar/usr/local/mahout/examples/target/mahout-examples-0.6-job.jar\org.apache.mahout.classifier.bayes.TestClassifier-mwikipediamodel-dwikipediainput但是我收到以下错误:14/03/0608:57:36INFOcommon.HadoopUtil:Deletingwikipediainput-output14/03/0608:58:32WAR

java - 是否可以在没有 hadoop 依赖的情况下使用 apache mahout 分类

是否可以在不依赖Hadoop的情况下使用Apachemahout分类。我想通过仅在我的Java项目中包含mahout库来在一台计算机上使用mahout算法,但我根本不想使用hadoop,因为无论如何我将在单个节点上运行,windows7操作系统。这可能吗?如果是,哪个算法在不依赖hadoop的情况下运行?先谢谢你 最佳答案 是的,无需安装Hadoop集群即可运行Mahout。您需要做的就是设置环境变量MAHOUT_LOCAL=TRUE看到此变量后,Mahout将开始直接与文件系统交互以获取数据等,而无需尝试寻找Hadoop集群或HD

hadoop - 在 Hadoop 集群上运行 Mahout

我是Mahout/Hadoop初学者。我正在尝试运行“MahoutinAction”一书中给出的Mahout示例。我能够在没有Hadoop的情况下在Eclipse中运行示例。您能否告诉我如何在Hadoop集群中运行相同的示例。 最佳答案 这wiki页面包含在Mahout中实现的不同文章以及如何运行它们。他们中的许多人将以下内容作为论点-xm"executionmethod:sequentialormapreduce"驯象师requirements提到它适用于Hadoop0.20.0+。请参阅本教程,了解如何在singlenode上设

hadoop - 如何使用 Mahout/Hadoop 评估推荐系统

Mahout带有许多预定义的Hadoop作业类(从AbstractJob派生的东西)。其中包括用于计算推荐的作业(RecommenderJob)。Mahout还定义了各种用于测试这些建议的RecommenderEvaluator,但我不清楚如何使用Hadoop以分布式方式运行这些建议。是:运行推荐作业,然后将其输出提供给评估器吗?我查看了RMSRecommenderEvaluatorTest,但这似乎一下子就完成了所有事情,而且看起来不像是Hadoop工作。 最佳答案 首先,我认为Mahout中的推荐分为两部分:非分布式算法(来自T

java - 使用 Apache Mahout 生成推荐的数据模型

我计划为我的网络应用程序的用户生成推荐。所以我决定为此使用ApacheMahout。我见过的大多数教程都使用FileDataModel(数据存储在csv文件中)但是我的数据在数据库中。对于拥有大约500到1000名用户的Web应用程序,使用FileDataModel生成用户推荐是否足够好?(我只是将所需的数据从数据库传输到我的CSV文件)?还是有其他选择?这是first和second我提到的教程。 最佳答案 可以使用JDBCDataModel从数据库访问偏好数据。看看MySQLJDBCDataModel

java - 如何在 mac 上安装 apache mahout?

我是Mahout的新手。我想安装并尝试一下。到目前为止,我已经在我的Mac上安装并配置了Maven3和Java1.6。我的问题是:DoIhavetoinstallHadoopfirstlybeforeinstallingMahout?有些教程包括安装Hadoop,有些则没有,这让我很困惑。我知道Mahout是建立在Hadoop之上的。但并不是所有的Mahout都依赖于Hadoop。有人可以提供一些有用的安装详细资源吗? 最佳答案 http://chimpler.wordpress.com/2013/02/20/playing-wit

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中?

我正在尝试将MahoutKMeans用于一个简单的应用程序。我根据数据库内容手动创建了一系列向量。我只是想将这些向量提供给Mahout(0.9),例如KMeansClusterer并使用输出。我阅读了MahoutinAction(版本0.5中的示例)和许多在线论坛以获取背景知识。但是,如果没有通过Hadoop使用文件名和文件路径,我再也看不到使用MahoutKMeans(或相关集群)的方法了。文档非常简略,但是Mahout是否可以再以这种方式使用?当前是否有任何使用MahoutKMeans的示例(不是来自命令行)。privateListkMeans(Listallvectors,dou

hadoop - 具有重复用户、项目条目但偏好值不同的 Mahout Datamodel

我想知道分布式mahout推荐作业org.apache.mahout.cf.taste.hadoop.item.RecommenderJob如何处理存在重复和三次用户、项目条目但具有不同偏好的csv文件值。例如,如果我有一个.csv文件,其中包含1,1,0.71,2,0.71,2,0.31,3,0.71,3,-0.7Mahout的数据模型将如何处理这个问题?它会总结给定用户项目条目的偏好值(例如,对于用户项目1,2,偏好是(0.7+0.3)),还是对这些值进行平均(例如,对于用户项目1,2,偏好是(0.7+0.3)/2)还是默认为它检测到的最后一个用户、项目条目(例如,对于用户1,2,

hadoop - Mahout - 朴素贝叶斯

我尝试使用mahout部署20-新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计数据,例如:bayes-model目录包含以下子目录,trainer-tfIdftrainer-thetaNormalizer训练器权重其中包含part-0000文件。我想阅读文件的内容以便更好地理解,cat命令似乎不起作用,它打印了一些垃圾。感谢任何帮助。谢谢 最佳答案 “part-00000”文件由Hadoop创建,采用Hadoop的SequenceFile格式,包含特定于Mahout的值。您不能将它们作为文本文件打开,不。您可以在Maho

java - Mahout TFIDF 字典文件

我正在尝试使用mahout对一组文档(作为文本文件)执行TFIDF以进行计算,遵循thisguide.我已成功创建字典和vector权重,现在正尝试访问输出。在指南中,它说您“例如可以轻松地将生成的字典文件的内容加载到map中,其中标记索引作为键,标记作为值。”我不确定如何按照他的建议将此文件加载到map中,有人知道它是如何完成的吗?我从一个文本文件目录创建了我的vector,我在运行“./mahoutseq2sparse...”时遇到的一个问题是控制分析器的-a标志-它应该是lucene的StandardAnalyzer。当尝试使用此标志运行时,我收到了ClassNotFoundEx