草庐IT

mahout-recommender

全部标签

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类,输入文件是“KMeansData.csv”,数据是这种格式,John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤,它们是,./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop - 将基于 Mahout Item 的推荐器输出格式更改为表格

我正在使用基于MahoutItem的推荐算法,最后当我们得到“XXX[y:z,y2;z2......]”格式的结果时。我想在其上创建一个表格,格式为:XXXyzXXXy2z2为此我正在使用HIVE。所以我创建了一个表,然后使用“explode()”函数,但问题是“[”也出现在结果中作为XXX[yz..XXXyzn]如何从结果中删除括号。 最佳答案 我会使用regexp_replace函数(documentation)过滤掉方括号,然后像您已经做的那样使用explode。 关于hadoop

hadoop - Mahout - Seq2Sparse 单 reducer

我已经运行了很多天的seq2sparse作业,但它就是没有完成。主要原因是大多数“子作业”只有1个reducer,而每个作业都有很多映射器。我在从命令行调用seq2sparse时指定了--numReducers=n,但该属性仅在某些地方使用,例如MakePartialVectors而不是用于子作业,例如PruneVectors.可能是什么原因? 最佳答案 我查看了代码并意识到numReducers变量并未传递给所有子作业,因此这些作业是使用默认的缩减容量创建的,即1要绕过此限制,只需指定变量-Dmapred.reduce.tasks

hadoop - 我如何使用 apache mahout 实现 LDA?

有一个如下所示的CSV格式的数据集。FileName,Topic,Tag,FrequencyFile-1,Topic-1,Tag-1,10File-2,Topic-2,Tag-2,10File-3,Topic-3,Tag-2,10File-4,Topic-4,Tag-4,10File-5,Topic-1,Tag-5,10File-6,Topic-3,Tag-1,10File-7,Topic-1,Tag-1,10我需要使用mahoutLDA(LatentDirichletallocation)算法找到标签之间的相关性。谁能帮我找到如何使用ApacheMahout做到这一点。我也很困惑,m

hadoop - Mahout - 异常 : Java Heap space

我正在尝试使用以下方法将一些文本转换为mahout序列文件:mahoutseqdirectory-iLastfm-ArtistTags2007-oseqdirectory但我得到的只是一个OutOfMemoryError,如下所示:Runningonhadoop,using/usr/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/opt/mahout/mahout-examples-0.9-job.jar14/04/0716:44:34INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF

macos - 在 Spark 和 Hadoop 之间共享数据(Mahout)

我的应用程序使用Spark进行一些数据处理并将其保存为RDD;我正在使用“本地”属性初始化SparkContext。我想在此数据集上使用Mahout,但在2个应用程序之间共享此数据的最佳方式是什么?我是大数据生态系统的新手,所以答案对我来说并不是很明显。附注我还在本指南的帮助下在本地安装了Hadoophttp://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/并能够运行它。 最佳答案 由于您的数据位于RDD中,因此只能从创建它的上下文中访问它,除非

java - 当我用 Mahout 运行 k-Means 时,总是显示这个提示

代码:hadoopjar/home/xnz/local/opt/apache-mahout-distribution-0.13.0/mahout-integration-0.13.0.jar\org.apache.mahout.clustering.conversion.InputDriver\-i/user/root/-o/user/root/input/seqfile错误提示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/cli2/OptionExceptionatjava.lang

csv - 0.6 中缺少 Apache Mahout Math VectorWritable?

我正在使用Mahout进行kmeans聚类。但是,貌似Mahout的kmeans不支持CSV文件,于是我尝试写一个特定的序列文件生成器。奇怪的是,我正在尝试使用org.apache.mahout.math.VectorWritable类,但似乎该类不在ma​​hout-math-0.6.jar中包。那么有人知道VectorWritable类在哪里吗?非常感谢!吉隆 最佳答案 于是乎,它一直在core.jar中。但是它的包名有点误导(org.apache.mahout.math)。 关于c

hadoop - hadoop 和 mahout 中正确的数据流应该是什么?

我正在使用hadoop、hive和mahout技术。我正在hadoop中使用mapreduce作业处理一些数据,以便在mahout中进行推荐。我想知道上述模型的正确工作流程,即当hadoop处理数据并将其存储在HDFS中时,mahout将如何使用这些数据以及mahout将如何获取这些数据以及在mahout处理数据之后,mahout将把这个推荐的放在哪里数据?注意:我正在使用hadoop处理数据,而我的同事正在另一台机器上使用mahout。希望你答对了我的问题。 最佳答案 如果你想在mahout中从hadoophdfs获取输入,那么你

jpa - Apache Mahout,用还是不用

我正在为一组用户创建的组件实现一个简单的推荐系统。我计划使用JPA和一些专用的EJB来完成这项工作。我的实体会有额外的几个包含最新推荐的列表,然后EJB会抓取数据集并定期更新此列表。该模型基于组件之间的关系,而不依赖于过去的用户行为。我预计数据集将保持相对较小。可能不超过50万件。我非常清楚如何使用JPA和EJB执行此操作,而且我认为对于我的特定用例,这将非常有效。我应该花时间学习和实现Mahout吗?我确实有一些hadoop经验,但我认为我的数据集不会大到足以证明引入大象是合理的。另外,谁能给我指点一本关于使用mahout实现推荐系统的入门读物?非常感谢。