草庐IT

MAHOUT_OPTS

全部标签

hadoop - 具有重复用户、项目条目但偏好值不同的 Mahout Datamodel

我想知道分布式mahout推荐作业org.apache.mahout.cf.taste.hadoop.item.RecommenderJob如何处理存在重复和三次用户、项目条目但具有不同偏好的csv文件值。例如,如果我有一个.csv文件,其中包含1,1,0.71,2,0.71,2,0.31,3,0.71,3,-0.7Mahout的数据模型将如何处理这个问题?它会总结给定用户项目条目的偏好值(例如,对于用户项目1,2,偏好是(0.7+0.3)),还是对这些值进行平均(例如,对于用户项目1,2,偏好是(0.7+0.3)/2)还是默认为它检测到的最后一个用户、项目条目(例如,对于用户1,2,

hadoop - Mahout - 朴素贝叶斯

我尝试使用mahout部署20-新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计数据,例如:bayes-model目录包含以下子目录,trainer-tfIdftrainer-thetaNormalizer训练器权重其中包含part-0000文件。我想阅读文件的内容以便更好地理解,cat命令似乎不起作用,它打印了一些垃圾。感谢任何帮助。谢谢 最佳答案 “part-00000”文件由Hadoop创建,采用Hadoop的SequenceFile格式,包含特定于Mahout的值。您不能将它们作为文本文件打开,不。您可以在Maho

java - Mahout TFIDF 字典文件

我正在尝试使用mahout对一组文档(作为文本文件)执行TFIDF以进行计算,遵循thisguide.我已成功创建字典和vector权重,现在正尝试访问输出。在指南中,它说您“例如可以轻松地将生成的字典文件的内容加载到map中,其中标记索引作为键,标记作为值。”我不确定如何按照他的建议将此文件加载到map中,有人知道它是如何完成的吗?我从一个文本文件目录创建了我的vector,我在运行“./mahoutseq2sparse...”时遇到的一个问题是控制分析器的-a标志-它应该是lucene的StandardAnalyzer。当尝试使用此标志运行时,我收到了ClassNotFoundEx

hadoop - Mahout 中的逻辑回归\SVM 实现

我目前正在为一家电信公司的数据进行Twitter数据的情感分析。我正在将数据加载到HDFS中,并使用Mahout的朴素贝叶斯分类器将情感预测为正面、负面或中性。这是我正在做的我正在向机器提供训练数据(key:sentiment,value:text)。使用mahout库通过计算文本的tf-idf(逆文档频率)创建特征向量。mahoutseq2sparser-i/user/root/new_model/dataseq--maxDFPercent1000000--minSupport4--maxNGramSize2-aorg.apache.lucene.analysis.Whitespac

hadoop - 使用项目相似度 hadoop 作业具有预先计算的项目相似度的基于可扩展实时项目的 mahout 推荐器?

我有以下设置:bool数据:(userid,itemid)基于hadoop的mahoutitemSimilarityJob具有以下参数:--similarityClassnameSimilarity_Loglikelihood--maxSimilaritiesPerItem50&others(input,output..)基于项目的bool推荐器:-模型MySqlBooleanPrefJDBCDataModel-相似性MySQLJDBCInMemoryItemSimilarity-candidatestrategyAllSimilarItemsCandidateItemsStrateg

apache - 如何在 Windows 8.1 上安装 Mahout?

我的目标是建立一个推荐系统,在浏览了很多文章之后,我发现Mahout是一种简单而有效的方法。我的系统上已经安装了XAMPP。如何安装Mahout?我需要完整的说明,因为我以前既没有使用过cygwin,也没有使用过Hadoop,而且在我看到的任何地方,我都经常看到这两个。我首先需要在我的本地主机上安装它,然后再在服务器上安装它。 最佳答案 这里是在Windows中使用Hadoop安装ApacheMahout的详细说明页面。这有点乏味,但无论如何都可以完成。http://alans.se/blog/2010/mahout-on-hado

hadoop - 我应该使用哪个版本的 HDP 来处理 Mahout 0.9 和 Hadoop 1.x

我需要为一个项目使用Mahout0.9。据说Mahout0.9与hadoop1.x兼容很好,与hadoop2.x兼容有些问题。因此我需要Mahout0.9和hadoop1.x。根据消息来源,默认情况下HDP1.3.3具有Mahout0.7。我可以在安装HDP1.3.3后将Mahout升级到0.9吗?如果Mahout0.9与hadoop2.x配合良好,那么就没有问题。但是有人可以向我保证这一点吗。 最佳答案 在2014年4月发布的HortonWorksDataPlatform(2.1)的最新版本中,支持Mahout0.9。我将maho

hadoop - 如何使用 Mahout 的序列文件 API 代码?

在Mahout中存在一个创建序列文件的命令为bin/mahoutseqdirectory-cUTF-8-i-o.我想将此命令用作代码API。 最佳答案 你可以这样做:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.SequenceFile;importorg.apache.hadoop.io.Text;C

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好,我试图在Mahout中运行KmeanClusteringExample,但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface),我的理解)。我想在我的样本数据集上运行kmeans,任何人都可以指导我吗?我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

java - 如何在操作书中的 mahout 中运行示例

我正在尝试运行第7章中的helloworld示例。我在eclipse中创建了以下内容,然后将其打包到一个jar中:-packagecom.mycode.mahoutimportjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg