草庐IT

MAHOUT_OPTS

全部标签

hadoop - 如何在 Apache mahout 中合并两个相似实例

我是Apachemahout的新手,我有一些疑问,如果我错了请纠正我。假设我们有数据集并根据数据集计算推荐,然后将结果显示给用户,当用户再次访问我们的网站时,我们将有新的数据集,因此我们必须根据新数据集再次计算推荐。我们可以通过组合两个数据集来做到这一点,即旧数据集和新数据集,但是由于我们已经对旧数据集进行了计算,如果我们将它们组合在一起,那么我们将再次对旧数据集进行相同的计算,这将在数据增加时成为问题所以想问问有没有其他方法可以做到这一点,我认为另一种方法是结合两个数据集的相似性,因为推荐是基于相似性的,但我找不到任何关于这个的东西。请帮我解决这个问题,谢谢

hadoop - elasticsearch 与 mahout 集成

我想使用Mahout对存储在elasticsearch中的数据进行一些预测分析,以查找类似的文档或根据已标记有特定条件的记录推荐其他记录。我计划创建一个Mahout集群,但是elasticsearch是否必须位于Hadoop集群中才能提供此功能?我需要运行es-hadoop吗?或者Mahout是否有其他方式查看elasticsearch中的数据?与只运行elasticsearch相比,运行es-hadoop对速度有什么影响吗? 最佳答案 最近我发现了一个项目,它是一个ElasticSearch插件,用于在elasticsearch中

xml - Mahout 的 XmlInputFormat 是否可以在不重写的情况下处理 gzip 压缩文件?

Mahout的XmlInputFormat能否在不覆盖其任何方法的情况下处理gzip压缩数据?我一直在尝试解析经过gzip压缩的维基百科xml数据,但到目前为止都没有成功。我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中或特定于其他输入格式,并且没有内置到Mahout的输入格式中。但也许我错过了什么。注意:从那以后我就能够解析xml,但我一直没能找到明确的答案,我很惊讶我这么难找到答案。希望更聪明的人可以启发我和其他人。 最佳答案 根据这个{code}没有处理编解码器,没有覆盖我认为

hadoop - 名称节点的堆大小与 HADOOP_NAMENODE_OPTS

我在HA集群中使用hadoopapache2.7.1。我需要更新两个名称节点的堆内存,所以我更新了hadoop-env.sh中的属性HADOOP_NAMENODE_OPTS为8gbexportHADOOP_NAMENODE_OPTS="-Xmx8192m$HADOOP_NAMENODE_OPTS"所以我的名称节点中的堆大小现在是8GB但是我在hadoop-env.sh中实现了参数HADOOP_HEAPSIZE我没有给它任何值(value)将HADOOP_NAMENODE_OPTS设置为8GB是否足够,还是我们也应该将HADOOP_HEAPSIZE设置为8GB?我的意思是HADOOP_N

hadoop - Mahout seq2sparse 给出 IllegalArgumentException

我已经设置了MAHOUT_LOCAL=TRUE我确实通过使用file://path_of_file来使用本地方式运行mahout,但仍然对我不起作用); 最佳答案 我四处寻找处于类似情况的人,这篇文章似乎很好地总结了您所看到的内容:https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/java-lang-IllegalArgumentException-java-net-UnknownHostException/td-p/12874请注意,在Tokeniz

apache - 无法读取 PFPGrowth 的 mahout 输出

我在hadoop上成功运行了Apachemahout的并行FPGroth算法。但是生成的输出文本文件不可读,如下所示SEQorg.apache.hadoop.io.TextDorg.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns������3G9��y'����e������1����2������������1��������t��5��1����������4��1������������1��4227������������3��1����������1��3476����������t��1��1

hadoop - Mahout 终止错误

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion我在伪分布式hadoop安装上运行一个简单的ItemSimilarityJobmahout作业,一段时间后进程停止,只有消息被杀死:12/06/0521:04:52INFOmapred.JobClient:map33%reduce8%12/06/0521:05:18INFOmapred.JobClient:map36%reduce8%12/06/0521:05:30INFOmapred.JobCl

hadoop - Hadoop的master节点需要安装Mahout吗?

这是个愚蠢的问题,但总得有人问。我试过在本地运行Mahout,效果很好。现在,我希望工作由远程集群执行,而不是我的本地机器。那么,我应该在Hadoop机器上部署Mahout代码,还是我仍然可以使用Hadoop在我的本地机器接口(interface)上远程制作Mahout? 最佳答案 不,您不会自己在Hadoopworker上安装Hadoop程序。那将是一场噩梦。当您通过hadoopjar向它提供包含所有代码的JAR文件时,Hadoop会为您完成。当您运行Mahout或任何其他基于Hadoop的东西时,在您的本地计算机上运行的是一个客

hadoop - 如何在 Mahout in Action 中构建和执行示例

我现在正在学习MahoutinAction,并写信询问如何构建和执行书中的示例。我可以找到有关Eclipse的说明,但我的环境不包括UI。所以我把第一个例子(RecommenderIntro)复制到RecommenderIntro.java中,通过javac编译。我得到一个错误,因为包没有被导入。所以我正在寻找:导入缺失包的方法。我猜,即使编译成功,也会生成.class文件,我该如何执行它?通过“javaRecommnderIntro”?我可以执行通过sudo-uhdfshadoopjar的mahout示例mahout-examples-0.7-cdh4.2.0-job.jarorg.

hadoop - hadoop、mahout、CDH版本匹配

我需要使用最新的mahout版本0.9(因为我需要使用所有分布式推荐算法)。为此,我应该使用哪个版本的hadoop?在某些地方,已经提到hadoop2.20不能很好地与mahout0.9一起工作。因此,我可以使用mahout0.9的最低hadoop版本是多少。如果我使用的是cloudera(CDH),我应该使用什么版本来处理mahout0.9。 最佳答案 CDH4.x包含Mahout0.7CDH5.0.x包含Mahout0.8CDH5.1.x发布后,可能会包含Mahout0.9,但不要引用我的话所有这些Mahout版本的默认构建都是