草庐IT

mahout-recommender

全部标签

hadoop - 如何为 hadoop 2.0 编译/使用 mahout?

最新版本的mahout0.9仅基于hadoop1.x构建。(mvn全新安装)如何为hadoop2.0.x编译mahout?因为当我运行命令时:hadoopjarmahout-examples-0.9-SNAPSHOT-job.jarorg.apache.mahout.cf.taste.hadoop.item.RecommenderJob-sSIMILARITY_COOCCURENCE-itest-oresult我总是收到错误信息IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContex

hadoop - 使用 Mahout 进行连续协同过滤

我正在评估Mahout作为协作过滤推荐引擎的过程。到目前为止它看起来很棒。我们有来自1200万不同用户的近2000万个bool值推荐。根据Mahout'swiki和一些主题SeanOwen,在这种情况下一台机器就足够了。因此,我决定使用MySql作为数据模型,暂时跳过使用Hadoop的开销。但有一件事让我难以理解,即在不从头读取整个数据的情况下持续更新建议的最佳实践是什么?我们每天都有数以万计的新推荐。虽然我不希望它被实时处理,但我希望它每15分钟左右处理一次。请详细说明基于Mysql和基于Hadoop的部署方法。谢谢! 最佳答案

java - 在本地运行 Mahout 获取 MahoutDriver 的 ClassNotFoundException

我正在尝试在Windows8机器上本地运行Mahout(没有Hadoop)。我意识到这不是最佳设置,但这是我必须使用的设置。当我尝试运行bin/mahout时,出现以下错误:$bin/mahoutMAHOUT_LOCALisset,sowedon'taddHADOOP_CONF_DIRtoclasspath.noHADOOP_HOMEset,runninglocallyExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/mahout/driver/MahoutDriverCausedby:java.lang.

hadoop - 为什么 Mahout 还没有线性回归

我刚刚开始使用Mahout,令我非常困惑的一件事是缺少线性回归。即使是更难的逻辑回归,在一定程度上也得到了研究的支持,但在线性回归方面却一无所获!据我了解,OLS是最容易解决的问题之一-Y=Xb+e具有b=(X^TX)^(-1)X^TY的线性回归解,其中X^T是X的转置,并且如果矩阵(X^TX)是奇异的(即不可逆)那么即使存在使用广义逆的解决方案,也可以显示错误消息。X^TX和X^Y的计算只是计算元素的总和和乘积的总和,据我所知,这可能是使用MapReduce做的最简单的事情。(这让我想到......是否有任何模块支持计算回归系数所需的native矩阵运算?这会使回归模块确实变得不必要

ubuntu - 在 ubuntu 12.04 上安装 mahout - E : Unable to locate package mahout

如何在ubuntu12.04上安装mahout?sudoapt-getinstallmahoutReadingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackagemahouthttps://ccp.cloudera.com/display/CDHDOC/Mahout+InstallationToinstallMahoutonanUbuntuorotherDebiansystem:$sudoapt-getinstallmahout

hadoop - 使用 Hadoop 扩展 Cassandra 和 Mahout

是否可以将Mahout配置为在通过Hadoop执行推荐作业时从Cassandra集群检索输入数据?我找到了一些有关此主题的资源-请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但那里描述的指示似乎不起作用(在mahout-0.6和mahout-0.7上都试过)。例如,itemIDIndexPath变量似乎不存在于RecommenderJob类中,也不存在于它扩展的抽象类中。 最佳答案 我试过针对Cassan

apache - 如何在 Mahout K 均值聚类中维护数据条目 ID

我正在使用mahout运行k-means聚类,在聚类时我遇到了识别数据条目的问题,例如我有100个数据条目iddata00.10.20.30.410.20.30.40.5......1000.20.40.40.5聚类后,我需要从聚类结果中取回id,以查看哪个点属于哪个聚类,但似乎没有办法维护id。在mahout官方的聚类合成控制数据的例子中,只输入数据到mahout,没有idlike28.781234.463231.338131.283428.9207......24.892325.74127.553232.821727.8789...并且聚类结果只有cluster-id和点值:VL-

hadoop - 如何使用 ambari 服务器安装 mahout

我使用ambari服务器(hortonworks)创建了一个使用3个从站和1个主站的hadoop集群。我需要在主机上安装mahout0.9才能在集群中运行mahout作业。我该怎么做?我正在使用ambari1.5.1和HDP2.1。 最佳答案 您好Hortonworker同事!Mahout在HDP存储库中,但在ambari安装向导(即服务->添加服务)中不可用。因此,安装它的唯一方法是:yuminstallmahout如前所述here,您应该只将它安装在主节点上。另请注意,Mahout是一个库,而不是服务。就要在节点上运行的附加服务

java - Mahout:CSV 到 vector 并运行程序

我正在使用Mahout分析k-means算法。我将运行一些测试,观察性能,并对得到的结果进行一些统计。我想不出在Mahout中运行我自己的程序的方法。但是,命令行界面可能就足够了。运行我做的示例程序$mahoutseqdirectory--inputuscensus--outputuscensus-seq$mahoutseq2sparse-iuscensus-seq-ouscensus-vec$mahoutkmeans-ireuters-vec/tfidf-vectors-ouscensus-kmeans-clusters-cuscensus-kmeans-centroids-dmor

apache - 使用 Apache Mahout 机器学习库

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。过去几周,我一直在空闲时间使用ApacheMahout机器学习库。我很想知道其他人如何使用这些库。