我目前是ApacheMahout的一个非常随意的用户,我正在考虑购买这本书MahoutinAction.不幸的是,我真的很难了解这本书的值(value)——并且看到它是ManningEarlyAccessProgram书(因此目前仅作为测试版电子书提供),我无法亲自去书店看书。任何人都可以推荐这个作为快速了解Mahout和/或可以补充Mahout网站的其他来源的好(或不太好)指南吗? 最佳答案 作为Mahout的提交者和本书的合著者,我认为这是值得的。;-)但是说真的,你在做什么?也许我们可以为您指出一些资源。Mahout的某些方面
我是一名PHP开发人员。让我们现在就把它弄清楚。但是Hadoop–和Mahout特别是–激起了我的兴趣。我已准备好深入研究Java以便使用它们。所以根据人们足够的经验可以知道,我需要多少Java才能有效地使用它们?据我所见,编程映射器/缩减器并不能解决所有这些问题很多。但是对于Mahout,当我查看文档时,我完全不确定我在看什么。此外,通过Hadoop和Mahout从我的PHP应用程序中获取数据以在Java中处理会有多难?我无法想象它会那么困难,但我经验不足,不好说。 最佳答案 使用Mahout和Hadoop将数据从PHP获取到Ja
我尝试使用ParallelALSFactorizationJob,但它在这里崩溃了:线程“main”中的异常java.lang.NullPointerException在java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)在org.apache.hadoop.util.Shell.runCommand(Shell.java:445)在org.apache.hadoop.util.Shell.run(Shell.java:418)在org.apache.hadoop.util.Shell$ShellCommandExecutor
我正在尝试在Windows上运行的应用程序中使用Mahout。我想使用k-means从lucene索引构建集群。一旦我必须创建序列文件(从lucene索引创建向量),我就会得到一个Hadoop异常,因为Hadoop对Windows环境中未知的程序(例如chmod)进行命令行调用。在Cygwin中运行不是一种选择,因为我希望能够从eclipse运行该应用程序。所以我的问题是有没有办法避免必须创建序列文件才能从lucene索引中检索我的向量?或者有没有办法在Windows环境中创建序列文件? 最佳答案 在Windows环境中运行Hado
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion我一直在阅读有关使用Solr和Mahout开发推荐系统的内容。据我了解,它们处理两个不同的问题。由于Solr是一个搜索引擎+分类系统,因此它主要用于“更像这样”之类的推荐在Drupal中-http://jamidwyer.com/d7/node/21.(或StackOverflow中的“相关”功能)就Mahout而言,它实现了协同过滤等机器学习算法。它可用于根据用户之前的操作(喜欢、购买的商品)在亚马逊中
我有一个rubyonrails应用程序。我有在应用程序中实现建议的想法。我开始了解ApacheMahout通过计算器。现在,如果我必须使用Mahout,我必须做些什么。由于它是一个Java库,我不清楚如何在RubyonRails应用程序中使用它。我有几个Java认证,所以用Java编码不是问题。我也有在Heroku中托管应用程序的想法,这会成为问题吗?谢谢 最佳答案 推荐系统部分实际上是作为一个与Hadoop无关的独立项目开始的。Mahout的一口井还活着。查看org.apache.mahout.cf.taste下的所有内容,除
isthereanyseqFileDiroptionfor"clusterdump"inthelatest"apachemahout"library?我正在尝试在输出上执行"clusterdump"mahoutkmeans聚类示例(synthetic_control示例)。但我遇到以下错误:1234567891011>~/MAHOUT/trunk/bin/mahoutclusterdump--seqFileDirclusters-10-final--pointsDirclusteredPoints--outputa1.txtMAHOUT_LOCALisnotset;addingHADOOP_C
isthereanyseqFileDiroptionfor"clusterdump"inthelatest"apachemahout"library?我正在尝试在输出上执行"clusterdump"mahoutkmeans聚类示例(synthetic_control示例)。但我遇到以下错误:1234567891011>~/MAHOUT/trunk/bin/mahoutclusterdump--seqFileDirclusters-10-final--pointsDirclusteredPoints--outputa1.txtMAHOUT_LOCALisnotset;addingHADOOP_C
接着Hadoop周边生态软件和简要工作原理(一)Sqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献非常大。Yahoo里面出来两拨人,分别组建了Cloudera和Hortonworks。所谓ETL,就是数据的抽取(extract)加载(load)转换(transform)。将一种格式或表现形式的数据,通过代码,改变形态,变成另一种格式或表现形式的数据。哪怕是把矩阵里的排列顺序改变,也算是ETL。Sqoop最主要的特点是可以在很多数据库和数据格式之间转