草庐IT

hadoop - 如何使用 ambari 服务器安装 mahout

我使用ambari服务器(hortonworks)创建了一个使用3个从站和1个主站的hadoop集群。我需要在主机上安装mahout0.9才能在集群中运行mahout作业。我该怎么做?我正在使用ambari1.5.1和HDP2.1。 最佳答案 您好Hortonworker同事!Mahout在HDP存储库中,但在ambari安装向导(即服务->添加服务)中不可用。因此,安装它的唯一方法是:yuminstallmahout如前所述here,您应该只将它安装在主节点上。另请注意,Mahout是一个库,而不是服务。就要在节点上运行的附加服务

java - Mahout:CSV 到 vector 并运行程序

我正在使用Mahout分析k-means算法。我将运行一些测试,观察性能,并对得到的结果进行一些统计。我想不出在Mahout中运行我自己的程序的方法。但是,命令行界面可能就足够了。运行我做的示例程序$mahoutseqdirectory--inputuscensus--outputuscensus-seq$mahoutseq2sparse-iuscensus-seq-ouscensus-vec$mahoutkmeans-ireuters-vec/tfidf-vectors-ouscensus-kmeans-clusters-cuscensus-kmeans-centroids-dmor

apache - 使用 Apache Mahout 机器学习库

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。过去几周,我一直在空闲时间使用ApacheMahout机器学习库。我很想知道其他人如何使用这些库。

hadoop - 最新的 "clusterdump"库中有 "apache mahout"的 seqFileDir 选项吗?

我正在尝试对输出做一个“clusterdump”mahoutkmeans聚类示例(synthetic_control示例)。但是我遇到了以下错误:>~/MAHOUT/trunk/bin/mahoutclusterdump--seqFileDirclusters-10-final--pointsDirclusteredPoints--outputa1.txtMAHOUT_LOCALisnotset;addingHADOOP_CONF_DIRtoclasspath.Runningonhadoop,using/usr/lib/hadoop/bin/hadoopandHADOOP_CONF_D

Hadoop 2.2.0 与 Mahout 0.8 兼容吗?

我的hadoop集群版本2.2.0与mahout0.8一起运行,它兼容吗?因为每当我运行这个命令时:bin/mahoutrecommenditembased--inputmydata.dat--usersFileuser.dat--numRecommendations2--outputoutput/--similarityClassnameSIMILARITY_PEARSON_CORRELATION给我这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.h

hadoop - 使用 mahout mapreduce 计算用户相似度

我正在使用Mahout集群,我有大型集群,每个集群有大约10万个用户,每个用户有5个功能。在下一步中,我需要计算皮尔逊相关性以找到集群用户之间的相似性。目前我有一个python脚本,它对我做同样的事情,但正如预期的那样,它需要很长时间的计算并且不再是一个可行的选择我查看了Mahout,因为它提供了使用Pearson、Tanimoto、loglikelyhood度量来查找UserSimilarity的功能,但我找不到的是开发这些相似性度量的Mapreduce版本的方法。是否有任何资源可以举个例子并向我解释如何开发UserSimilarity的mapreduce版本,或者使用hadoop流

hadoop - 在 hadoop 集群上部署 Mahout

我想在5台机器的hadoop集群中运行Mahout的K-Means示例。我应该在所有节点中保留哪些Mahoutjar文件,以便K-Means以分布式方式执行。谢谢。-文基拉姆 最佳答案 如果您真的只想运行内置的K-Means或其他带有静态驱动程序的作业,答案是“无”。mahout“作业”jar是独立的hadoop作业jar。如果您使用“hadoop作业”向集群提交作业,它无需任何其他jar即可运行。 关于hadoop-在hadoop集群上部署Mahout,我们在StackOverflow

hadoop - 使用 mahout 和 hadoop

我是一个新手,想了解如何将mahout和hadoop用于协同过滤。我有单节点cassandra设置。我想从cassandra中获取数据我在哪里可以找到先安装hadoop然后安装mahout以与cassandra一起使用的明确安装步骤? 最佳答案 (我认为这与您刚刚在user@mahout.apache.org上提出的问题相同?复制我的答案。)您可能根本不需要Hadoop,如果不需要,为简单起见,我建议您不要使用它。规模超过某个点是“必要之恶”。您可以在Cassandra上拥有数据,但您希望能够将其读入内存。如果可以转储为文件,则可以

java - 如何构建/运行这个简单的 Mahout 程序而不出现异常?

我想运行我在MahoutInAction中找到的这段代码:packageorg.help;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.SequenceFile;importorg.apache.hadoop.i

apache - 使用 Apache Mahout 对数据进行分类

我正在尝试解决一个简单的分类问题。问题:我有一组文本,我必须根据内容对它们进行分类。使用Mahout的解决方案:我知道我必须将输入转换为序列文件才能生成模型。是的,我能够做到这一点。现在,如何对测试数据进行分类?20News示例仅测试正确性。但是,我想做实际的分类。我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。? 最佳答案 我讨厌插入自己的工作,但我们将整个部分放入MahoutinAction中关于分类的内容。理论、代码示例、案例研究实践,甚至整个服务器场实现。您可以在http://www.manning.com/o