草庐IT

MAHOUT_OPTS

全部标签

hadoop - 构建数据模型时 Mahout 出现 NumberFormatException

当我在Mahout的itemBasedRecommender的训练数据中使用字符串值属性时,我得到了一个NumberFormatException,它是在从文件中的数据构建FileDataModel的过程中抛出的。如果字符串属性值为“1.0”,这基本上是一个表示为字符串的数字,那么它不会抛出NumberFormatException。但如果属性值为“Washington”,则会抛出NumberFormatException。有没有什么解决方案可以让我在Mahout中的Recommenders训练数据中将字符串属性值(如“Washington”)作为itemID/userID传递?我正在

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗?如果是这样,对我们可以运行的算法有什么限制吗? 最佳答案 是的,mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP

hadoop - Hadoop 平台中除 mahout 之外的任何其他机器学习库

我正在做一个利用机器学习算法的项目,我选择hadoop/mahout因为它可以更好地处理大数据。但是mahout只集成了很少的算法,(不包括一些算法,比如SVM)所以我想知道Hadoop平台上除了mahout还有其他机器学习库如果是这样,我对新图书馆有一些疑问是否支持分布式计算是正式版吗?有什么支持吗?非常感谢~ 最佳答案 看看ApacheHama,它们具有简单的ML算法,例如LogisticRegression或K-means聚类。以后会有更多的算法。这是他们的网站:http://hama.apache.org/

java - 包括核心和数学文件夹的 Mahout 数学库类 - Eclipse - Hadoop

我的问题与此类似:HowdoIbuild/runthissimpleMahoutprogramwithoutgettingexceptions?,但有点复杂。我正在编写Hadoop代码,并且想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类)。问题是前一个示例类位于Mahout最新SNAPSHOT的math文件夹中,而后者位于core文件夹下,并且两者共享与根文件夹(org.apache.mahout.math).问题是我没有找到让Hadoopjar文件正确导入与数学相关的类的方法,而是位于Mahout项目的Core文件夹下。我正在使用Ecli

windows-7 - cygwin下windows 7安装mahout

我在Windows7pro64位的cygwin下成功安装了hadoop。现在我正在努力安装mahout,但我不能。设置MAHOUT_HOME和变量并在cygwin上运行mahout后,出现以下错误我猜这与cygwin和windows路径之间的兼容性问题有关,但我找不到我应该更改哪个具体路径。Runningonhadoop,using/cygdrive/c/hadoop/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/cygdrive/c/mahout/mahout-examples-0.7-job.jarExceptioninthread"main"j

java - 将 mahout 随机森林分类输出转换为可读

我正在通过mahout站点中的教程学习mahout随机森林:http://mahout.apache.org/users/classification/partial-implementation.html但是当所有作业都成功完成时,我的输出文件是这样的:@1@.@0@@1@.@0@@0@.@0@@1@.@0@@1@.@0@@0@.@0@@0@.@0@@0@.@0@如何将其转换为人类可读的输出? 最佳答案 最后我发现这个数字是标签的代码。我们可以将它们更改为标签。在TestForest.java示例中的这段代码之后:classifi

java - Mahout IntDoubleProcedure NoClassDefFoundError

我正在使用我学校的服务器,它已经有hadoop和mahout。但我需要将csv解析为vector。所以我尝试了其他人的git代码。但是我遇到了以下无法解决的异常。dcmac04:dirusername$java-jarBigDataNaiveBayes_fat.jarMay30,20151:48:17AMorg.apache.hadoop.util.NativeCodeLoaderWARNING:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableMay30,2

linux - 在 mahout 上安装 mvn 没有工作 (linux)

最近我尝试在我的Ubuntu上安装mahout。一开始,我安装了Hadoop和Maven,遇到了一些问题,但还是解决了。问题是当我尝试安装mahout时出现错误。其实,有件事让我很困惑。为了使用Hadoop,我使用新用户(hduser)生成了sshkey。然后我继续在hduser上安装maven,也就是说Maven只安装在hduser上。以下命令是在我使用$su-hduser登录后输入的。hadoop(如果需要的话):$hadoopversionHadoop2.7.3Subversionhttps://git-wip-us.apache.org/repos/asf/hadoop.git

hadoop - Mahout:如何使用随机森林进行在线预测

在完成这个简单示例后,我刚刚在UCI的玻璃数据上尝试了BreimanExample:https://cwiki.apache.org/MAHOUT/breiman-example.html我的问题是,一旦我在Mahout中创建了一个RandomForest,我该如何“加载它”以便用它进行预测?使用Python中的sklearn这很容易,只需将森林pickle到磁盘并稍后加载它,将它放在Web服务器后面以进行实时交互,很容易。但是Mahout和Hadoop呢?如果我大规模构建RandomForest,我如何捕获和使用输出来进行future预测? 最佳答案

java - Hadoop2.2 的 Mahout 错误

我正在尝试在Hadoop2.2上使用mahout0.9库执行XML解析的mapreduce作业。但我收到以下错误:14/02/2416:03:02INFOmapreduce.Job:TaskId:attempt_1393235568433_0004_m_000000_0,Status:FAILEDError:Foundinterfaceorg.apache.hadoop.mapreduce.TaskAttemptContext,butclasswasexpected14/02/2416:03:12INFOmapreduce.Job:TaskId:attempt_139323556843