草庐IT

MAHOUT_OPTS

全部标签

hadoop - HBase & Mahout - 使用 HBase 作为 Mahout 的数据存储/源 - 分类

我正在从事一个大型文本分类项目,我们将文本数据(简单消息)存储在HBase中。我们有两个问题,首先我们想使用HBase作为Mahout分类器的来源,即拜耳和随机森林。其次,我们希望能够存储在HBase中生成的模型,而不是使用内存方法(InMemoryBayesDatastore),但是随着我们的集的增长,我们遇到了内存利用问题,并且想测试HBase作为可行的替代方案。似乎很少有资料将HBase与Mahout一起使用,以及是否可以将其用作潜在的数据源。我在具有InMemory数据存储的Java中使用Mahout0.6核心API。做一些挖掘我相信有一个HBaseBayers数据存储组件-o

hadoop - 如何开始开发 mahout

从(http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html)安装mahout后。如何运行mahout算法以及从哪里我可以获得最受欢迎的mahout新手简单教程。...提前致谢。 最佳答案 我喜欢http://girlincomputerscience.blogspot.com/2010/11/apache-mahout.html关联。还有http://www.ibm.com/developerworks/java/library/j-mahout/也很

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个?

我是并行计算的新手,刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如,我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是,我还看到了MPI(MR-MPI)上的MapReduce实现,它不提供容错,但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效,并且似乎使用核外内存处理大数据。相反,新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

K8S时代的JAVA_OPTS参数

问题最近Spring要住到k8s的pod里面去了,导致原来的JAVA_OPTS配置方式,不能那么大开大合了。这里假设使用的Java8.原来的JAVA_OPTS参数:JAVA_OPTS="-server-Xms6g-Xmx6g-XX:+UseG1GC-XX:MaxGCPauseMillis=20-XX:InitiatingHeapOccupancyPercent=35-XX:+ExplicitGCInvokesConcurrent-Djava.awt.headless=true"新JAVA_OPTS参数JAVA_OPTS="-server-XX:MaxRAMPercentage=80.0-XX:

algorithm - Mahout 基于内容的推荐引擎

我正在研究推荐问题(基于内容的推荐)。我在mongodb中以json格式设置了数据集。问题陈述有些项目有自己的属性,用户对每个属性都有一些偏好。现在我正在考虑根据项目的属性预测用户对项目x的喜爱程度,并比较用户对项目x具有的相同属性的偏好。我想建立一个推荐系统,根据用户的喜好向他们推荐商品。我正在考虑使用Mahout和CBAYES分类器算法来预测“用户A会喜欢多少项目x”。但是我还没有找到任何使用mahout实现CBAYES的示例和数据集。如果您有任何其他建议使用任何其他分类器算法,请推荐。 最佳答案 您可以使用余弦相似度来计算“用

node.js - 如何在 mocha.opts 中正确地 require 一个模块?

我正在使用mocha-mongoose在测试之间自动清除mongo。在文档中,它说在您的规范文件中或在您的规范助手中全局需要该模块。按照规范执行此操作效果很好,但我想从mocha.opts执行此操作以保持我的代码干燥。用mocha.opts要求它不起作用。规范之间未清除Mongomocha.opts:--require./test/common.js--reporterspec--uibdd--recursive--colors--timeout60000--slow300通用.js:require('mocha-mongoose')('mongodb://your-mongodb-u

k8s、docker添加daemon.json添加“exec-opts“: [“native.cgroupdriver=systemd“]后无法启动的问题

考虑k8s下docker下载镜像太慢,修改了daemon.json,按照手册抄,添加{ "exec-opts":["native.cgroupdriver=systemd"], "registry-mirrors":["https://kn0t2bca.mirror.aliyuncs.com"]}结果发现k8s起不来了,–Unitdocker.servicehasbegunstartingup.Aug1022:02:01k8s-masterdockerd[1831]:unabletoconfiguretheDockerdaemonwithfile/etc/docker/daemon.json:

java - setenv.sh 中的多行 JAVA_OPTS

我正在尝试在Ubuntu12/Tomcat7上设置我的setenv.sh。Tomcat已经安装了apt-get我试图创建一个多行JAVA_OPTS变量,但一直遇到错误消息。#!/bin/shexportJAVA_OPTS="$JAVA_OPTS-server\-Xms512m-Xmx512m":notfoundtomcat7/bin/catalina.sh:4:/usr/share/tomcat7/bin/setenv.sh:UsingCATALINA_BASE:/usr/share/tomcat7UsingCATALINA_HOME:/usr/share/tomcat7UsingCA

java - 是否可以在没有 hadoop 依赖的情况下使用 apache mahout?

是否可以在不依赖Hadoop的情况下使用Apachemahout。我想通过在我的Java项目中只包含mahout库来在一台计算机上使用mahout算法,但我根本不想使用hadoop,因为我将在单个节点上运行。这可能吗? 最佳答案 是的。并非所有的Mahout都依赖于Hadoop,尽管有很多。如果你使用依赖于Hadoop的一block,当然你需要Hadoop。但是例如,有大量的推荐引擎代码库没有使用Hadoop。您可以在Java程序中嵌入本地Hadoop集群/worker。 关于java-

JAVA_OPTS 用于增加堆大小

我想增加堆大小。我怎样才能使用JAVA_OPTS这样做。我收到以下错误可能是因为堆大小低UNEXPECTEDTOP-LEVELERROR:java.lang.OutOfMemoryError:Javaheapspaceatjava.util.Arrays.copyOfRange(Arrays.java:3209)atjava.lang.String.(String.java:215)atjava.lang.StringBuilder.toString(StringBuilder.java:430)atcom.android.dx.rop.type.Prototype.withFirst