MAHOUT_OPTS

hadoop - 具有重复用户、项目条目但偏好值不同的 Mahout Datamodel

我想知道分布式mahout推荐作业org.apache.mahout.cf.taste.hadoop.item.RecommenderJob如何处理存在重复和三次用户、项目条目但具有不同偏好的csv文件值。例如，如果我有一个.csv文件，其中包含1,1,0.71,2,0.71,2,0.31,3,0.71,3,-0.7Mahout的数据模型将如何处理这个问题？它会总结给定用户项目条目的偏好值(例如，对于用户项目1,2，偏好是(0.7+0.3))，还是对这些值进行平均(例如，对于用户项目1,2，偏好是(0.7+0.3)/2)还是默认为它检测到的最后一个用户、项目条目(例如，对于用户1,2，

条目偏好 code section hadoop mahout recommendation-engine mahout-recommender

hadoop - Mahout - 朴素贝叶斯

我尝试使用mahout部署20-新闻组示例，它似乎工作正常。出于好奇，我想深入研究模型统计数据，例如:bayes-model目录包含以下子目录，trainer-tfIdftrainer-thetaNormalizer训练器权重其中包含part-0000文件。我想阅读文件的内容以便更好地理解，cat命令似乎不起作用，它打印了一些垃圾。感谢任何帮助。谢谢最佳答案 “part-00000”文件由Hadoop创建，采用Hadoop的SequenceFile格式，包含特定于Mahout的值。您不能将它们作为文本文件打开，不。您可以在Maho

贝叶朴素 section Mahout 训练器 hadoop

java - Mahout TFIDF 字典文件

我正在尝试使用mahout对一组文档(作为文本文件)执行TFIDF以进行计算，遵循thisguide.我已成功创建字典和vector权重，现在正尝试访问输出。在指南中，它说您“例如可以轻松地将生成的字典文件的内容加载到map中，其中标记索引作为键，标记作为值。”我不确定如何按照他的建议将此文件加载到map中，有人知道它是如何完成的吗？我从一个文本文件目录创建了我的vector，我在运行“./mahoutseq2sparse...”时遇到的一个问题是控制分析器的-a标志-它应该是lucene的StandardAnalyzer。当尝试使用此标志运行时，我收到了ClassNotFoundEx

Mahout TFIDF section 分析器 java lucene hadoop tf-idf

hadoop - Mahout 中的逻辑回归\SVM 实现

我目前正在为一家电信公司的数据进行Twitter数据的情感分析。我正在将数据加载到HDFS中，并使用Mahout的朴素贝叶斯分类器将情感预测为正面、负面或中性。这是我正在做的我正在向机器提供训练数据(key:sentiment,value:text)。使用mahout库通过计算文本的tf-idf(逆文档频率)创建特征向量。mahoutseq2sparser-i/user/root/new_model/dataseq--maxDFPercent1000000--minSupport4--maxNGramSize2-aorg.apache.lucene.analysis.Whitespac

hadoop Mahout 贝叶 section new_model machine-learning svm logistic-regression

hadoop - 使用项目相似度 hadoop 作业具有预先计算的项目相似度的基于可扩展实时项目的 mahout 推荐器？

我有以下设置:bool数据:(userid,itemid)基于hadoop的mahoutitemSimilarityJob具有以下参数:--similarityClassnameSimilarity_Loglikelihood--maxSimilaritiesPerItem50&others(input,output..)基于项目的bool推荐器:-模型MySqlBooleanPrefJDBCDataModel-相似性MySQLJDBCInMemoryItemSimilarity-candidatestrategyAllSimilarItemsCandidateItemsStrateg

hadoop 预先的 section rescorer machine-learning mahout

apache - 如何在 Windows 8.1 上安装 Mahout？

我的目标是建立一个推荐系统，在浏览了很多文章之后，我发现Mahout是一种简单而有效的方法。我的系统上已经安装了XAMPP。如何安装Mahout？我需要完整的说明，因为我以前既没有使用过cygwin，也没有使用过Hadoop，而且在我看到的任何地方，我都经常看到这两个。我首先需要在我的本地主机上安装它，然后再在服务器上安装它。最佳答案这里是在Windows中使用Hadoop安装ApacheMahout的详细说明页面。这有点乏味，但无论如何都可以完成。http://alans.se/blog/2010/mahout-on-hado

何在 Windows section strong Mahout apache hadoop cygwin

hadoop - 我应该使用哪个版本的 HDP 来处理 Mahout 0.9 和 Hadoop 1.x

我需要为一个项目使用Mahout0.9。据说Mahout0.9与hadoop1.x兼容很好，与hadoop2.x兼容有些问题。因此我需要Mahout0.9和hadoop1.x。根据消息来源，默认情况下HDP1.3.3具有Mahout0.7。我可以在安装HDP1.3.3后将Mahout升级到0.9吗？如果Mahout0.9与hadoop2.x配合良好，那么就没有问题。但是有人可以向我保证这一点吗。最佳答案在2014年4月发布的HortonWorksDataPlatform(2.1)的最新版本中，支持Mahout0.9。我将maho

hadoop Mahout section bigdata hortonworks-data-platform

hadoop - 如何使用 Mahout 的序列文件 API 代码？

在Mahout中存在一个创建序列文件的命令为bin/mahoutseqdirectory-cUTF-8-i-o.我想将此命令用作代码API。最佳答案你可以这样做:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.SequenceFile;importorg.apache.hadoop.io.Text;C

hadoop Mahout apache code sequencefile

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好，我试图在Mahout中运行KmeanClusteringExample，但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface)，我的理解)。我想在我的样本数据集上运行kmeans，任何人都可以指导我吗？我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

Cluster hadoop import new apache compiler-errors mahout k-means

java - 如何在操作书中的 mahout 中运行示例

我正在尝试运行第7章中的helloworld示例。我在eclipse中创建了以下内容，然后将其打包到一个jar中:-packagecom.mycode.mahoutimportjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg

中运何在 mahout java import eclipse hadoop jar

11 12 131415 16 17