SO的Mahout社区您好!我有几个关于加速推荐计算的问题。在我的服务器上,我安装了没有Hadoop的Mahout。jRuby也用于推荐脚本。在数据库中,我有3k个用户和100k个项目(连接表中有270k个项目)。因此,当用户请求推荐时,简单的脚本开始工作:首先,它使用PGPoolingDataSource建立数据库连接,如下所示:connection=org.postgresql.ds.PGPoolingDataSource.new()connection.setDataSourceName("db_name");connection.setServerName("localhost
我的数据在CSV文件中。我想读取HDFS中的CSV文件。谁能帮我写代码??我是hadoop的新手。提前致谢。 最佳答案 为此所需的类是FileSystem,FSDataInputStream和Path.客户端应该是这样的:publicstaticvoidmain(String[]args)throwsIOException{//TODOAuto-generatedmethodstubConfigurationconf=newConfiguration();conf.addResource(newPath("/hadoop/proje
我是Mahout的新手。我需要将文本文件转换为向量以供后期分类。任何人都可以阐明以下这些问题吗?如何在mahout中将文本文件转换为矢量?文件格式如“用户名|关于项目的评论|评分”数据将是几个TB。那么我可以使用哪种算法来使用我想创建的向量进行分类?谢谢,阿伦 最佳答案 您可以查看这2个示例,它们在一定程度上也说明/解释了如何使用序列文件API。Here和here你绝对应该阅读这篇intro到文本分析 关于apache-ApacheMahout中的矢量化,我们在StackOverflow
我们使用EuclideanDistanceSimilarity类通过Hadoop计算一组项目的相似度。不幸的是,尽管与项目高度相似,但某些项目得到的结果为零或很少。我想我已经追踪到EuclideanDistanceSimilarity类中的这一行:doubleeuclideanDistance=Math.sqrt(normA-2*dots+normB);传递给sqrt的值有时是负数,在这种情况下返回NaN。我想也许某处应该有一个Math.abs,但我的数学还不够强大,无法理解欧几里德计算是如何重新排列的,所以不确定会产生什么影响。谁能更好地解释数学并确认是否doubleeuclidea
我在玩Mahout,发现FileDataModel接受以下格式的数据userId,itemId,pref(long,long,Double).我有一些格式的数据String,long,double在Mahout上使用此数据集的最佳/最简单方法是什么? 最佳答案 一种方法是创建FileDataModel的扩展.您需要覆盖readUserIDFromString(Stringvalue)使用某种解析器进行转换的方法。您可以使用IDMigrator的实现之一。,正如肖恩建议的那样。例如,假设您有一个已初始化的MemoryIDMigrato
我需要进行一些繁重的机器学习计算。我在LAN上有少量闲置的机器。我需要多少台机器才能使用hadoop/mapreduce/mahout来分配我的计算,以便比在没有这些分布式框架的单台机器上运行要快得多?这是一个计算开销与yield的实际问题,因为我假设仅在2台机器之间分配总时间会比不分配和简单地在一台机器上运行更糟糕(只是因为分配计算所涉及的所有开销)。技术说明:一些繁重的计算非常可并行化。所有这些都是只要每台机器都有自己的原始数据副本。 最佳答案 “普通”Java程序和基于Hadoop、基于MapReduce的实现是截然不同的野兽
我正在从事一个大型文本分类项目,我们将文本数据(简单消息)存储在HBase中。我们有两个问题,首先我们想使用HBase作为Mahout分类器的来源,即拜耳和随机森林。其次,我们希望能够存储在HBase中生成的模型,而不是使用内存方法(InMemoryBayesDatastore),但是随着我们的集的增长,我们遇到了内存利用问题,并且想测试HBase作为可行的替代方案。似乎很少有资料将HBase与Mahout一起使用,以及是否可以将其用作潜在的数据源。我在具有InMemory数据存储的Java中使用Mahout0.6核心API。做一些挖掘我相信有一个HBaseBayers数据存储组件-o
从(http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html)安装mahout后。如何运行mahout算法以及从哪里我可以获得最受欢迎的mahout新手简单教程。...提前致谢。 最佳答案 我喜欢http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html关联。还有http://www.ibm.com/developerworks/java/library/j-mahout/也很
我是并行计算的新手,刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如,我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是,我还看到了MPI(MR-MPI)上的MapReduce实现,它不提供容错,但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效,并且似乎使用核外内存处理大数据。相反,新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。
我正在研究推荐问题(基于内容的推荐)。我在mongodb中以json格式设置了数据集。问题陈述有些项目有自己的属性,用户对每个属性都有一些偏好。现在我正在考虑根据项目的属性预测用户对项目x的喜爱程度,并比较用户对项目x具有的相同属性的偏好。我想建立一个推荐系统,根据用户的喜好向他们推荐商品。我正在考虑使用Mahout和CBAYES分类器算法来预测“用户A会喜欢多少项目x”。但是我还没有找到任何使用mahout实现CBAYES的示例和数据集。如果您有任何其他建议使用任何其他分类器算法,请推荐。 最佳答案 您可以使用余弦相似度来计算“用