我正在尝试解决一个简单的分类问题。问题:我有一组文本,我必须根据内容对它们进行分类。使用Mahout的解决方案:我知道我必须将输入转换为序列文件才能生成模型。是的,我能够做到这一点。现在,如何对测试数据进行分类?20News示例仅测试正确性。但是,我想做实际的分类。我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。? 最佳答案 我讨厌插入自己的工作,但我们将整个部分放入MahoutinAction中关于分类的内容。理论、代码示例、案例研究实践,甚至整个服务器场实现。您可以在http://www.manning.com/o
我目前是ApacheMahout的一个非常随意的用户,我正在考虑购买这本书MahoutinAction.不幸的是,我真的很难了解这本书的值(value)——并且看到它是ManningEarlyAccessProgram书(因此目前仅作为测试版电子书提供),我无法亲自去书店看书。任何人都可以推荐这个作为快速了解Mahout和/或可以补充Mahout网站的其他来源的好(或不太好)指南吗? 最佳答案 作为Mahout的提交者和本书的合著者,我认为这是值得的。;-)但是说真的,你在做什么?也许我们可以为您指出一些资源。Mahout的某些方面
我想知道mapreduce.map.memory.mb和mapred.map.child.java.opts参数之间的关系。mapreduce.map.memory.mb>mapred.map.child.java.opts? 最佳答案 mapreduce.map.memory.mb是Hadoop允许分配给映射器的内存上限,以兆字节为单位。默认值为512。如果超过此限制,Hadoop将终止映射器并显示如下错误:Container[pid=container_1406552545451_0009_01_000002,contain
我是一名PHP开发人员。让我们现在就把它弄清楚。但是Hadoop–和Mahout特别是–激起了我的兴趣。我已准备好深入研究Java以便使用它们。所以根据人们足够的经验可以知道,我需要多少Java才能有效地使用它们?据我所见,编程映射器/缩减器并不能解决所有这些问题很多。但是对于Mahout,当我查看文档时,我完全不确定我在看什么。此外,通过Hadoop和Mahout从我的PHP应用程序中获取数据以在Java中处理会有多难?我无法想象它会那么困难,但我经验不足,不好说。 最佳答案 使用Mahout和Hadoop将数据从PHP获取到Ja
我尝试使用ParallelALSFactorizationJob,但它在这里崩溃了:线程“main”中的异常java.lang.NullPointerException在java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)在org.apache.hadoop.util.Shell.runCommand(Shell.java:445)在org.apache.hadoop.util.Shell.run(Shell.java:418)在org.apache.hadoop.util.Shell$ShellCommandExecutor
我正在尝试在Windows上运行的应用程序中使用Mahout。我想使用k-means从lucene索引构建集群。一旦我必须创建序列文件(从lucene索引创建向量),我就会得到一个Hadoop异常,因为Hadoop对Windows环境中未知的程序(例如chmod)进行命令行调用。在Cygwin中运行不是一种选择,因为我希望能够从eclipse运行该应用程序。所以我的问题是有没有办法避免必须创建序列文件才能从lucene索引中检索我的向量?或者有没有办法在Windows环境中创建序列文件? 最佳答案 在Windows环境中运行Hado
我需要在Windows机器上全局设置-Dfile.encoding=UTF8。我尝试在MyComputer->Properties->EnvironmentVariables中以及通过ControlPanel->Java->JavaRuntimeEnvironmentSettings设置JAVA_OPTS环境变量,但这些都没有效果.如何在Windows中全局设置JAVA_OPTS(特别是file.encoding属性)?谢谢 最佳答案 您是否尝试设置环境变量JAVA_TOOL_OPTIONS?将它设置为"-Dfile.encodin
我只是用gen_tcp做了一个测试。一个简单的回显服务器和一个客户端。但客户端启动和关闭,服务器接受两个连接,一个是好的,另一个是坏的。我的演示脚本有任何问题,如何解释?服务器-module(echo).-export([listen/1]).-define(TCP_OPTIONS,[binary,{packet,0},{active,false},{reuseaddr,true}]).listen(Port)->{ok,LSocket}=gen_tcp:listen(Port,?TCP_OPTIONS),accept(LSocket).accept(LSocket)->{ok,Soc
什么时候应该使用这些环境变量? 最佳答案 JAVA_TOOL_OPTIONS被一些JDK工具读取,但适用性有限。JAVA_OPTS是ApacheTomcat和其他一些应用程序使用的约定,但不是由Sun/Oracle、AFAIK发布的任何JDK工具直接读取。来自:https://forums.oracle.com/forums/thread.jspa?messageID=6438415JAVA_OPTSisnotanenvironmentvariablethatthejavaexecutablewillrecognizeonit'so
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion我一直在阅读有关使用Solr和Mahout开发推荐系统的内容。据我了解,它们处理两个不同的问题。由于Solr是一个搜索引擎+分类系统,因此它主要用于“更像这样”之类的推荐在Drupal中-http://jamidwyer.com/d7/node/21.(或StackOverflow中的“相关”功能)就Mahout而言,它实现了协同过滤等机器学习算法。它可用于根据用户之前的操作(喜欢、购买的商品)在亚马逊中