MAHOUT

csv - 0.6 中缺少 Apache Mahout Math VectorWritable？

我正在使用Mahout进行kmeans聚类。但是，貌似Mahout的kmeans不支持CSV文件，于是我尝试写一个特定的序列文件生成器。奇怪的是，我正在尝试使用org.apache.mahout.math.VectorWritable类，但似乎该类不在mahout-math-0.6.jar中包。那么有人知道VectorWritable类在哪里吗？非常感谢!吉隆最佳答案于是乎，它一直在core.jar中。但是它的包名有点误导(org.apache.mahout.math)。关于c

hadoop - hadoop 和 mahout 中正确的数据流应该是什么？

我正在使用hadoop、hive和mahout技术。我正在hadoop中使用mapreduce作业处理一些数据，以便在mahout中进行推荐。我想知道上述模型的正确工作流程，即当hadoop处理数据并将其存储在HDFS中时，mahout将如何使用这些数据以及mahout将如何获取这些数据以及在mahout处理数据之后，mahout将把这个推荐的放在哪里数据？注意:我正在使用hadoop处理数据，而我的同事正在另一台机器上使用mahout。希望你答对了我的问题。最佳答案如果你想在mahout中从hadoophdfs获取输入，那么你

hadoop 该是 mahout section hive mahout-recommender

jpa - Apache Mahout，用还是不用

我正在为一组用户创建的组件实现一个简单的推荐系统。我计划使用JPA和一些专用的EJB来完成这项工作。我的实体会有额外的几个包含最新推荐的列表，然后EJB会抓取数据集并定期更新此列表。该模型基于组件之间的关系，而不依赖于过去的用户行为。我预计数据集将保持相对较小。可能不超过50万件。我非常清楚如何使用JPA和EJB执行此操作，而且我认为对于我的特定用例，这将非常有效。我应该花时间学习和实现Mahout吗？我确实有一些hadoop经验，但我认为我的数据集不会大到足以证明引入大象是合理的。另外，谁能给我指点一本关于使用mahout实现推荐系统的入门读物？非常感谢。

Apache Mahout section 的 code jpa hadoop ejb recommendation-engine

hadoop - Apache Mahout 与 Apache HIVe 集成

我已将数据集存储在ApacheHive中，但想对Hive数据库中的数据使用Mahout。如何集成Mahout和Hive，以便让Mahout从Hive数据库中读取数据？最佳答案我认为您需要修改mahout作业并替换来自hive的数据源。当数据存储在HBase中时，我会这样做。关于hadoop-ApacheMahout与ApacheHIVe集成，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

Apache hadoop section Mahout Hive

hadoop - 在 hadoop 多节点集群上运行 mahout kmeans

我在多节点集群上运行kmeans。输入大小约为100mb，我已经像这样修改了bin/mahout文件...MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.min.split.size=10MB"..MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.map.tasks=10"在每次迭代中我得到12/09/1217:05:02INFOmapred.JobClient:Launchedmaptasks=112/09/1217:05:02INFOmapred.JobClient:Launchedreducetasks=612/09/1217:05:02IN

hadoop mahout section MAHOUT_OPTS blockquote

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

showing hadoop cluster apache new mahout k-means

java - 使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常

这个问题不太可能帮助任何future的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visitthehelpcenter.关闭9年前。我正在尝试使用Mahout运行集群程序。以下是我正在使用的java代码packagecom;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuratio

时出 K-means mapred INFO JobClient java hadoop cluster-analysis mahout

hadoop - 将键值数据集表示为 Mahout 向量

我有一个CSV格式的数据集，它是一组键值对，数据集很大，值是整数和短字符串的混合(即不是冗长的文本，而是关键词)，我想使用Mahout的聚类算法对其进行处理。问题在于将此CSV转换为Mahout可以使用的向量。我一直在阅读“MahoutInAction”，似乎有两个向量化选项，使用Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现的数值，或使用向量空间模型来向量化文本文档。我要对其进行矢量化的数据并不是真正的文本文档，但由于它是一个包含许多不同键和值的庞大数据集，因此很难将其映射为数值。将

hadoop Mahout section 表示法

hadoop - 异常 - java.lang.IllegalArgumentException : Label not found in Mahout

我正在运行以下命令，/mahouttrainnb-i${WORK_DIR}/20news-train-vectors-el-o${WORK_DIR}/model-li${WORK_DIR}/labelindex-ow./mahouttestnb-i${WORK_DIR}/20news-test-vectors-m${WORK_DIR}/model-l${WORK_DIR}/labelindex\-ow-o${WORK_DIR}/20news-testing在运行最后一个命令时，我能够将map任务运行到100%，但是在reduce任务上我收到以下错误:Exceptioninthread"

IllegalArgumentException hadoop java apache mahout amazon-ec2 classification

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

8 9 101112 13 14