草庐IT

csv - 0.6 中缺少 Apache Mahout Math VectorWritable?

我正在使用Mahout进行kmeans聚类。但是,貌似Mahout的kmeans不支持CSV文件,于是我尝试写一个特定的序列文件生成器。奇怪的是,我正在尝试使用org.apache.mahout.math.VectorWritable类,但似乎该类不在ma​​hout-math-0.6.jar中包。那么有人知道VectorWritable类在哪里吗?非常感谢!吉隆 最佳答案 于是乎,它一直在core.jar中。但是它的包名有点误导(org.apache.mahout.math)。 关于c

hadoop - hadoop 和 mahout 中正确的数据流应该是什么?

我正在使用hadoop、hive和mahout技术。我正在hadoop中使用mapreduce作业处理一些数据,以便在mahout中进行推荐。我想知道上述模型的正确工作流程,即当hadoop处理数据并将其存储在HDFS中时,mahout将如何使用这些数据以及mahout将如何获取这些数据以及在mahout处理数据之后,mahout将把这个推荐的放在哪里数据?注意:我正在使用hadoop处理数据,而我的同事正在另一台机器上使用mahout。希望你答对了我的问题。 最佳答案 如果你想在mahout中从hadoophdfs获取输入,那么你

jpa - Apache Mahout,用还是不用

我正在为一组用户创建的组件实现一个简单的推荐系统。我计划使用JPA和一些专用的EJB来完成这项工作。我的实体会有额外的几个包含最新推荐的列表,然后EJB会抓取数据集并定期更新此列表。该模型基于组件之间的关系,而不依赖于过去的用户行为。我预计数据集将保持相对较小。可能不超过50万件。我非常清楚如何使用JPA和EJB执行此操作,而且我认为对于我的特定用例,这将非常有效。我应该花时间学习和实现Mahout吗?我确实有一些hadoop经验,但我认为我的数据集不会大到足以证明引入大象是合理的。另外,谁能给我指点一本关于使用mahout实现推荐系统的入门读物?非常感谢。

hadoop - Apache Mahout 与 Apache HIVe 集成

我已将数据集存储在ApacheHive中,但想对Hive数据库中的数据使用Mahout。如何集成Mahout和Hive,以便让Mahout从Hive数据库中读取数据? 最佳答案 我认为您需要修改mahout作业并替换来自hive的数据源。当数据存储在HBase中时,我会这样做。 关于hadoop-ApacheMahout与ApacheHIVe集成,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/que

hadoop - 在 hadoop 多节点集群上运行 mahout kmeans

我在多节点集群上运行kmeans。输入大小约为100mb,我已经像这样修改了bin/mahout文件...MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.min.split.size=10MB"..MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.map.tasks=10"在每次迭代中我得到12/09/1217:05:02INFOmapred.JobClient:Launchedmaptasks=112/09/1217:05:02INFOmapred.JobClient:Launchedreducetasks=612/09/1217:05:02IN

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

java - 使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭9年前。我正在尝试使用Mahout运行集群程序。以下是我正在使用的java代码packagecom;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuratio

hadoop - 将键值数据集表示为 Mahout 向量

我有一个CSV格式的数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词),我想使用Mahout的聚类算法对其进行处理。问题在于将此CSV转换为Mahout可以使用的向量。我一直在阅读“MahoutInAction”,似乎有两个向量化选项,使用Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现的数值,或使用向量空间模型来向量化文本文档。我要对其进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的庞大数据集,因此很难将其映射为数值。将

hadoop - 异常 - java.lang.IllegalArgumentException : Label not found in Mahout

我正在运行以下命令,/mahouttrainnb-i${WORK_DIR}/20news-train-vectors-el-o${WORK_DIR}/model-li${WORK_DIR}/labelindex-ow./mahouttestnb-i${WORK_DIR}/20news-test-vectors-m${WORK_DIR}/model-l${WORK_DIR}/labelindex\-ow-o${WORK_DIR}/20news-testing在运行最后一个命令时,我能够将map任务运行到100%,但是在reduce任务上我收到以下错误:Exceptioninthread"

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个?

我正在从事一个NLP项目,该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce,我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败,我必须手动删除输出文件夹,调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑,我不想一次又一次地重复这些步骤。[