草庐IT

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常,直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

java - 在 Java 应用程序中使用 Mahout

我想编写一个使用LatentDrichletAllocation(LDA)的Java应用程序(用于大学)。我发现唯一提供LDA的框架是Mahout。我在Java编程方面有很多经验,尽管我不认为自己是JavaPro(我来自PHP)。该应用程序不会在分布式计算上下文中使用,因此mahout/hadoop方式可能是一种超越顶部的方式,但如果我是对的,它至少应该有效。我的问题:Mahoutwiki等并没有真正帮助我,事实上我一个字也听不懂。我不想以那种“终端方式”使用mahout。我只想将这些类加载到我的应用程序中并执行类似的操作:文件=obj.load(文件);mahout.doLDA(文档

hadoop - Mahout RecommenderJob 没有收敛

这是我的第一篇SO帖子,所以如果我错过了任何重要的事情,请告诉我。我是Mahout/Hadoop初学者,正在尝试组装一个分布式推荐引擎。为了模拟在远程集群上工作,我在我的机器上设置了hadoop以与UbuntuVM(使用VirtualBox)进行通信,该VM也位于我的机器上,并安装了hadoop。此设置似乎运行良好,我现在正尝试在(非常!)小型试验数据集上运行Mahout的“RecommenderJob”作为测试。输入包含一个.csv文件(保存在hadoopdfs上),其中包含大约50个用户首选项,格式为:userID,itemID,preference...和我正在运行的命令是:ha

hadoop - 尝试在 Hadoop 上运行 Mahout 测试分类器时出现 "GC overhead limit exceeded"

我在Linux上使用Hadoop版本0.20.2。我正在尝试使用以下命令测试分类器模型:bin/hadoopjar/usr/local/mahout/examples/target/mahout-examples-0.6-job.jar\org.apache.mahout.classifier.bayes.TestClassifier-mwikipediamodel-dwikipediainput但是我收到以下错误:14/03/0608:57:36INFOcommon.HadoopUtil:Deletingwikipediainput-output14/03/0608:58:32WAR

java - 是否可以在没有 hadoop 依赖的情况下使用 apache mahout 分类

是否可以在不依赖Hadoop的情况下使用Apachemahout分类。我想通过仅在我的Java项目中包含mahout库来在一台计算机上使用mahout算法,但我根本不想使用hadoop,因为无论如何我将在单个节点上运行,windows7操作系统。这可能吗?如果是,哪个算法在不依赖hadoop的情况下运行?先谢谢你 最佳答案 是的,无需安装Hadoop集群即可运行Mahout。您需要做的就是设置环境变量MAHOUT_LOCAL=TRUE看到此变量后,Mahout将开始直接与文件系统交互以获取数据等,而无需尝试寻找Hadoop集群或HD

hadoop - 在 Hadoop 集群上运行 Mahout

我是Mahout/Hadoop初学者。我正在尝试运行“MahoutinAction”一书中给出的Mahout示例。我能够在没有Hadoop的情况下在Eclipse中运行示例。您能否告诉我如何在Hadoop集群中运行相同的示例。 最佳答案 这wiki页面包含在Mahout中实现的不同文章以及如何运行它们。他们中的许多人将以下内容作为论点-xm"executionmethod:sequentialormapreduce"驯象师requirements提到它适用于Hadoop0.20.0+。请参阅本教程,了解如何在singlenode上设

hadoop - 如何使用 Mahout/Hadoop 评估推荐系统

Mahout带有许多预定义的Hadoop作业类(从AbstractJob派生的东西)。其中包括用于计算推荐的作业(RecommenderJob)。Mahout还定义了各种用于测试这些建议的RecommenderEvaluator,但我不清楚如何使用Hadoop以分布式方式运行这些建议。是:运行推荐作业,然后将其输出提供给评估器吗?我查看了RMSRecommenderEvaluatorTest,但这似乎一下子就完成了所有事情,而且看起来不像是Hadoop工作。 最佳答案 首先,我认为Mahout中的推荐分为两部分:非分布式算法(来自T

java - 使用 Apache Mahout 生成推荐的数据模型

我计划为我的网络应用程序的用户生成推荐。所以我决定为此使用ApacheMahout。我见过的大多数教程都使用FileDataModel(数据存储在csv文件中)但是我的数据在数据库中。对于拥有大约500到1000名用户的Web应用程序,使用FileDataModel生成用户推荐是否足够好?(我只是将所需的数据从数据库传输到我的CSV文件)?还是有其他选择?这是first和second我提到的教程。 最佳答案 可以使用JDBCDataModel从数据库访问偏好数据。看看MySQLJDBCDataModel

java - 如何在 mac 上安装 apache mahout?

我是Mahout的新手。我想安装并尝试一下。到目前为止,我已经在我的Mac上安装并配置了Maven3和Java1.6。我的问题是:DoIhavetoinstallHadoopfirstlybeforeinstallingMahout?有些教程包括安装Hadoop,有些则没有,这让我很困惑。我知道Mahout是建立在Hadoop之上的。但并不是所有的Mahout都依赖于Hadoop。有人可以提供一些有用的安装详细资源吗? 最佳答案 http://chimpler.wordpress.com/2013/02/20/playing-wit

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中?

我正在尝试将MahoutKMeans用于一个简单的应用程序。我根据数据库内容手动创建了一系列向量。我只是想将这些向量提供给Mahout(0.9),例如KMeansClusterer并使用输出。我阅读了MahoutinAction(版本0.5中的示例)和许多在线论坛以获取背景知识。但是,如果没有通过Hadoop使用文件名和文件路径,我再也看不到使用MahoutKMeans(或相关集群)的方法了。文档非常简略,但是Mahout是否可以再以这种方式使用?当前是否有任何使用MahoutKMeans的示例(不是来自命令行)。privateListkMeans(Listallvectors,dou