mahout-recommender

hadoop - Apache Mahout 与 Apache HIVe 集成

我已将数据集存储在ApacheHive中，但想对Hive数据库中的数据使用Mahout。如何集成Mahout和Hive，以便让Mahout从Hive数据库中读取数据？最佳答案我认为您需要修改mahout作业并替换来自hive的数据源。当数据存储在HBase中时，我会这样做。关于hadoop-ApacheMahout与ApacheHIVe集成，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

hadoop - 在 hadoop 多节点集群上运行 mahout kmeans

我在多节点集群上运行kmeans。输入大小约为100mb，我已经像这样修改了bin/mahout文件...MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.min.split.size=10MB"..MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.map.tasks=10"在每次迭代中我得到12/09/1217:05:02INFOmapred.JobClient:Launchedmaptasks=112/09/1217:05:02INFOmapred.JobClient:Launchedreducetasks=612/09/1217:05:02IN

hadoop mahout section MAHOUT_OPTS blockquote

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

showing hadoop cluster apache new mahout k-means

java - 使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常

这个问题不太可能帮助任何future的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visitthehelpcenter.关闭9年前。我正在尝试使用Mahout运行集群程序。以下是我正在使用的java代码packagecom;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuratio

时出 K-means mapred INFO JobClient java hadoop cluster-analysis mahout

hadoop - 将键值数据集表示为 Mahout 向量

我有一个CSV格式的数据集，它是一组键值对，数据集很大，值是整数和短字符串的混合(即不是冗长的文本，而是关键词)，我想使用Mahout的聚类算法对其进行处理。问题在于将此CSV转换为Mahout可以使用的向量。我一直在阅读“MahoutInAction”，似乎有两个向量化选项，使用Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现的数值，或使用向量空间模型来向量化文本文档。我要对其进行矢量化的数据并不是真正的文本文档，但由于它是一个包含许多不同键和值的庞大数据集，因此很难将其映射为数值。将

hadoop Mahout section 表示法

hadoop - 异常 - java.lang.IllegalArgumentException : Label not found in Mahout

我正在运行以下命令，/mahouttrainnb-i${WORK_DIR}/20news-train-vectors-el-o${WORK_DIR}/model-li${WORK_DIR}/labelindex-ow./mahouttestnb-i${WORK_DIR}/20news-test-vectors-m${WORK_DIR}/model-l${WORK_DIR}/labelindex\-ow-o${WORK_DIR}/20news-testing在运行最后一个命令时，我能够将map任务运行到100%，但是在reduce任务上我收到以下错误:Exceptioninthread"

IllegalArgumentException hadoop java apache mahout amazon-ec2 classification

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常，直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

Mahout space hadoop JobClient mapred java amazon-web-services emr

java - 在 Java 应用程序中使用 Mahout

我想编写一个使用LatentDrichletAllocation(LDA)的Java应用程序(用于大学)。我发现唯一提供LDA的框架是Mahout。我在Java编程方面有很多经验，尽管我不认为自己是JavaPro(我来自PHP)。该应用程序不会在分布式计算上下文中使用，因此mahout/hadoop方式可能是一种超越顶部的方式，但如果我是对的，它至少应该有效。我的问题:Mahoutwiki等并没有真正帮助我，事实上我一个字也听不懂。我不想以那种“终端方式”使用mahout。我只想将这些类加载到我的应用程序中并执行类似的操作:文件=obj.load(文件);mahout.doLDA(文档

Mahout java section hadoop

hadoop - Mahout RecommenderJob 没有收敛

这是我的第一篇SO帖子，所以如果我错过了任何重要的事情，请告诉我。我是Mahout/Hadoop初学者，正在尝试组装一个分布式推荐引擎。为了模拟在远程集群上工作，我在我的机器上设置了hadoop以与UbuntuVM(使用VirtualBox)进行通信，该VM也位于我的机器上，并安装了hadoop。此设置似乎运行良好，我现在正尝试在(非常!)小型试验数据集上运行Mahout的“RecommenderJob”作为测试。输入包含一个.csv文件(保存在hadoopdfs上)，其中包含大约50个用户首选项，格式为:userID,itemID,preference...和我正在运行的命令是:ha

RecommenderJob hadoop 12 INFO mapred mahout mahout-recommender

12 13 141516 17 18