草庐IT

mahout-recommender

全部标签

hadoop - Apache Mahout 与 Apache HIVe 集成

我已将数据集存储在ApacheHive中,但想对Hive数据库中的数据使用Mahout。如何集成Mahout和Hive,以便让Mahout从Hive数据库中读取数据? 最佳答案 我认为您需要修改mahout作业并替换来自hive的数据源。当数据存储在HBase中时,我会这样做。 关于hadoop-ApacheMahout与ApacheHIVe集成,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/que

hadoop - 在 hadoop 多节点集群上运行 mahout kmeans

我在多节点集群上运行kmeans。输入大小约为100mb,我已经像这样修改了bin/mahout文件...MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.min.split.size=10MB"..MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.map.tasks=10"在每次迭代中我得到12/09/1217:05:02INFOmapred.JobClient:Launchedmaptasks=112/09/1217:05:02INFOmapred.JobClient:Launchedreducetasks=612/09/1217:05:02IN

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

java - 使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭9年前。我正在尝试使用Mahout运行集群程序。以下是我正在使用的java代码packagecom;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuratio

hadoop - 将键值数据集表示为 Mahout 向量

我有一个CSV格式的数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想使用Mahout的聚类算法对其进行处理。问题在于将此CSV转换为Mahout可以使用的向量。我一直在阅读“MahoutInAction”,似乎有两个向量化选项,使用Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现的数值,或使用向量空间模型来向量化文本文档。我要对其进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射为数值。将

hadoop - 异常 - java.lang.IllegalArgumentException : Label not found in Mahout

我正在运行以下命令,/mahouttrainnb-i${WORK_DIR}/20news-train-vectors-el-o${WORK_DIR}/model-li${WORK_DIR}/labelindex-ow./mahouttestnb-i${WORK_DIR}/20news-test-vectors-m${WORK_DIR}/model-l${WORK_DIR}/labelindex\-ow-o${WORK_DIR}/20news-testing在运行最后一个命令时,我能够将map任务运行到100%,但是在reduce任务上我收到以下错误:Exceptioninthread"

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个?

我正在从事一个NLP项目,该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce,我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败,我必须手动删除输出文件夹,调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑,我不想一次又一次地重复这些步骤。[

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常,直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

java - 在 Java 应用程序中使用 Mahout

我想编写一个使用LatentDrichletAllocation(LDA)的Java应用程序(用于大学)。我发现唯一提供LDA的框架是Mahout。我在Java编程方面有很多经验,尽管我不认为自己是JavaPro(我来自PHP)。该应用程序不会在分布式计算上下文中使用,因此mahout/hadoop方式可能是一种超越顶部的方式,但如果我是对的,它至少应该有效。我的问题:Mahoutwiki等并没有真正帮助我,事实上我一个字也听不懂。我不想以那种“终端方式”使用mahout。我只想将这些类加载到我的应用程序中并执行类似的操作:文件=obj.load(文件);mahout.doLDA(文档

hadoop - Mahout RecommenderJob 没有收敛

这是我的第一篇SO帖子,所以如果我错过了任何重要的事情,请告诉我。我是Mahout/Hadoop初学者,正在尝试组装一个分布式推荐引擎。为了模拟在远程集群上工作,我在我的机器上设置了hadoop以与UbuntuVM(使用VirtualBox)进行通信,该VM也位于我的机器上,并安装了hadoop。此设置似乎运行良好,我现在正尝试在(非常!)小型试验数据集上运行Mahout的“RecommenderJob”作为测试。输入包含一个.csv文件(保存在hadoopdfs上),其中包含大约50个用户首选项,格式为:userID,itemID,preference...和我正在运行的命令是:ha