mahout-recommender

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类，输入文件是“KMeansData.csv”，数据是这种格式，John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤，它们是，./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop - 将基于 Mahout Item 的推荐器输出格式更改为表格

我正在使用基于MahoutItem的推荐算法，最后当我们得到“XXX[y:z,y2;z2......]”格式的结果时。我想在其上创建一个表格，格式为:XXXyzXXXy2z2为此我正在使用HIVE。所以我创建了一个表，然后使用“explode()”函数，但问题是“[”也出现在结果中作为XXX[yz..XXXyzn]如何从结果中删除括号。最佳答案我会使用regexp_replace函数(documentation)过滤掉方括号，然后像您已经做的那样使用explode。关于hadoop

hadoop Mahout section li code hive collaborative-filtering

hadoop - Mahout - Seq2Sparse 单 reducer

我已经运行了很多天的seq2sparse作业，但它就是没有完成。主要原因是大多数“子作业”只有1个reducer，而每个作业都有很多映射器。我在从命令行调用seq2sparse时指定了--numReducers=n，但该属性仅在某些地方使用，例如MakePartialVectors而不是用于子作业，例如PruneVectors.可能是什么原因？最佳答案我查看了代码并意识到numReducers变量并未传递给所有子作业，因此这些作业是使用默认的缩减容量创建的，即1要绕过此限制，只需指定变量-Dmapred.reduce.tasks

Seq2Sparse 2Sparse code section numReducers hadoop mahout

hadoop - 我如何使用 apache mahout 实现 LDA？

有一个如下所示的CSV格式的数据集。FileName,Topic,Tag,FrequencyFile-1,Topic-1,Tag-1,10File-2,Topic-2,Tag-2,10File-3,Topic-3,Tag-2,10File-4,Topic-4,Tag-4,10File-5,Topic-1,Tag-5,10File-6,Topic-3,Tag-1,10File-7,Topic-1,Tag-1,10我需要使用mahoutLDA(LatentDirichletallocation)算法找到标签之间的相关性。谁能帮我找到如何使用ApacheMahout做到这一点。我也很困惑，m

hadoop apache section Topic mahout bigdata lucene lda

hadoop - Mahout - 异常 : Java Heap space

我正在尝试使用以下方法将一些文本转换为mahout序列文件:mahoutseqdirectory-iLastfm-ArtistTags2007-oseqdirectory但我得到的只是一个OutOfMemoryError，如下所示:Runningonhadoop,using/usr/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/opt/mahout/mahout-examples-0.9-job.jar14/04/0716:44:34INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF

hadoop Mahout java mapred

macos - 在 Spark 和 Hadoop 之间共享数据(Mahout)

我的应用程序使用Spark进行一些数据处理并将其保存为RDD；我正在使用“本地”属性初始化SparkContext。我想在此数据集上使用Mahout，但在2个应用程序之间共享此数据的最佳方式是什么？我是大数据生态系统的新手，所以答案对我来说并不是很明显。附注我还在本指南的帮助下在本地安装了Hadoophttp://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/并能够运行它。最佳答案由于您的数据位于RDD中，因此只能从创建它的上下文中访问它，除非

Hadoop Mahout section installing-hadoop-on-mac-osx-yose macos apache-spark bigdata

java - 当我用 Mahout 运行 k-Means 时，总是显示这个提示

代码:hadoopjar/home/xnz/local/opt/apache-mahout-distribution-0.13.0/mahout-integration-0.13.0.jar\org.apache.mahout.clustering.conversion.InputDriver\-i/user/root/-o/user/root/input/seqfile错误提示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/cli2/OptionExceptionatjava.lang

k-Means Mahout java URLClassLoader section hadoop hadoop2

csv - 0.6 中缺少 Apache Mahout Math VectorWritable？

我正在使用Mahout进行kmeans聚类。但是，貌似Mahout的kmeans不支持CSV文件，于是我尝试写一个特定的序列文件生成器。奇怪的是，我正在尝试使用org.apache.mahout.math.VectorWritable类，但似乎该类不在mahout-math-0.6.jar中包。那么有人知道VectorWritable类在哪里吗？非常感谢!吉隆最佳答案于是乎，它一直在core.jar中。但是它的包名有点误导(org.apache.mahout.math)。关于c

VectorWritable Apache section strong csv hadoop mahout k-means

hadoop - hadoop 和 mahout 中正确的数据流应该是什么？

我正在使用hadoop、hive和mahout技术。我正在hadoop中使用mapreduce作业处理一些数据，以便在mahout中进行推荐。我想知道上述模型的正确工作流程，即当hadoop处理数据并将其存储在HDFS中时，mahout将如何使用这些数据以及mahout将如何获取这些数据以及在mahout处理数据之后，mahout将把这个推荐的放在哪里数据？注意:我正在使用hadoop处理数据，而我的同事正在另一台机器上使用mahout。希望你答对了我的问题。最佳答案如果你想在mahout中从hadoophdfs获取输入，那么你

hadoop 该是 mahout section hive mahout-recommender

jpa - Apache Mahout，用还是不用

我正在为一组用户创建的组件实现一个简单的推荐系统。我计划使用JPA和一些专用的EJB来完成这项工作。我的实体会有额外的几个包含最新推荐的列表，然后EJB会抓取数据集并定期更新此列表。该模型基于组件之间的关系，而不依赖于过去的用户行为。我预计数据集将保持相对较小。可能不超过50万件。我非常清楚如何使用JPA和EJB执行此操作，而且我认为对于我的特定用例，这将非常有效。我应该花时间学习和实现Mahout吗？我确实有一些hadoop经验，但我认为我的数据集不会大到足以证明引入大象是合理的。另外，谁能给我指点一本关于使用mahout实现推荐系统的入门读物？非常感谢。

Apache Mahout section 的 code jpa hadoop ejb recommendation-engine

11 12 131415 16 17