MAHOUT_草庐IT

amazon-web-services - 如何计算映射器/缩减器的数量，以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能？

根据AmazonElasticMapReduce上使用/可用的实例，计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么？(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR，查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

射器缩减 section 的 amazon-web-services hadoop mahout reducers mapper

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？

我在Amazon的EMR(AMI2.3.1)上运行Mahout0.7模糊k-means集群，并且我的内存不足。我的总体问题:如何最轻松地让它发挥作用？这是一个调用:./bin/mahoutfkmeans\--inputs3://.../foo/vectors.seq\--outputs3://.../foo/fuzzyk2\--numClusters128\--clusterss3://.../foo/initial_clusters/\--maxIter20\--m2\--methodmapreduce\--distanceMeasureorg.apache.mahout.commo

耗尽何在 java apache hadoop cluster-analysis mahout k-means

vector - java.lang.OutOfMemoryError : Java heap space error while running seq2sparse in mahout 错误

我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我创建了6个文件，每个文件中几乎没有1或2个单词的文本。使用./mahoutseqdirectory从它们中创建一个序列文件。在尝试使用./mahoutseq2sparse命令将序列文件转换为向量时，出现java.lang.OutOfMemoryError:Javaheapspace错误。序列文件大小为0.215KB。命令:./mahoutseq2sparse-imokha/output-omokha/vector-ow错误日志:SLF4J:ClasspathcontainsmultipleSLF4Jbindin

OutOfMemoryError seq2sparse apache hadoop org vector mahout

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类，输入文件是“KMeansData.csv”，数据是这种格式，John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤，它们是，./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop apache Mahout parsedtext machine-learning k-means

hadoop - 将基于 Mahout Item 的推荐器输出格式更改为表格

我正在使用基于MahoutItem的推荐算法，最后当我们得到“XXX[y:z,y2;z2......]”格式的结果时。我想在其上创建一个表格，格式为:XXXyzXXXy2z2为此我正在使用HIVE。所以我创建了一个表，然后使用“explode()”函数，但问题是“[”也出现在结果中作为XXX[yz..XXXyzn]如何从结果中删除括号。最佳答案我会使用regexp_replace函数(documentation)过滤掉方括号，然后像您已经做的那样使用explode。关于hadoop

hadoop Mahout section li code hive collaborative-filtering

hadoop - Mahout - Seq2Sparse 单 reducer

我已经运行了很多天的seq2sparse作业，但它就是没有完成。主要原因是大多数“子作业”只有1个reducer，而每个作业都有很多映射器。我在从命令行调用seq2sparse时指定了--numReducers=n，但该属性仅在某些地方使用，例如MakePartialVectors而不是用于子作业，例如PruneVectors.可能是什么原因？最佳答案我查看了代码并意识到numReducers变量并未传递给所有子作业，因此这些作业是使用默认的缩减容量创建的，即1要绕过此限制，只需指定变量-Dmapred.reduce.tasks

Seq2Sparse 2Sparse code section numReducers hadoop mahout

hadoop - 我如何使用 apache mahout 实现 LDA？

有一个如下所示的CSV格式的数据集。FileName,Topic,Tag,FrequencyFile-1,Topic-1,Tag-1,10File-2,Topic-2,Tag-2,10File-3,Topic-3,Tag-2,10File-4,Topic-4,Tag-4,10File-5,Topic-1,Tag-5,10File-6,Topic-3,Tag-1,10File-7,Topic-1,Tag-1,10我需要使用mahoutLDA(LatentDirichletallocation)算法找到标签之间的相关性。谁能帮我找到如何使用ApacheMahout做到这一点。我也很困惑，m

hadoop apache section Topic mahout bigdata lucene lda

hadoop - Mahout - 异常 : Java Heap space

我正在尝试使用以下方法将一些文本转换为mahout序列文件:mahoutseqdirectory-iLastfm-ArtistTags2007-oseqdirectory但我得到的只是一个OutOfMemoryError，如下所示:Runningonhadoop,using/usr/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/opt/mahout/mahout-examples-0.9-job.jar14/04/0716:44:34INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF

hadoop Mahout java mapred

macos - 在 Spark 和 Hadoop 之间共享数据(Mahout)

我的应用程序使用Spark进行一些数据处理并将其保存为RDD；我正在使用“本地”属性初始化SparkContext。我想在此数据集上使用Mahout，但在2个应用程序之间共享此数据的最佳方式是什么？我是大数据生态系统的新手，所以答案对我来说并不是很明显。附注我还在本指南的帮助下在本地安装了Hadoophttp://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/并能够运行它。最佳答案由于您的数据位于RDD中，因此只能从创建它的上下文中访问它，除非

Hadoop Mahout section installing-hadoop-on-mac-osx-yose macos apache-spark bigdata

java - 当我用 Mahout 运行 k-Means 时，总是显示这个提示

代码:hadoopjar/home/xnz/local/opt/apache-mahout-distribution-0.13.0/mahout-integration-0.13.0.jar\org.apache.mahout.clustering.conversion.InputDriver\-i/user/root/-o/user/root/input/seqfile错误提示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/cli2/OptionExceptionatjava.lang

k-Means Mahout java URLClassLoader section hadoop hadoop2