kmeans

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？

我在Amazon的EMR(AMI2.3.1)上运行Mahout0.7模糊k-means集群，并且我的内存不足。我的总体问题:如何最轻松地让它发挥作用？这是一个调用:./bin/mahoutfkmeans\--inputs3://.../foo/vectors.seq\--outputs3://.../foo/fuzzyk2\--numClusters128\--clusterss3://.../foo/initial_clusters/\--maxIter20\--m2\--methodmapreduce\--distanceMeasureorg.apache.mahout.commo

耗尽何在 java apache hadoop cluster-analysis mahout k-means

hadoop - 在 hadoop 多节点集群上运行 mahout kmeans

我在多节点集群上运行kmeans。输入大小约为100mb，我已经像这样修改了bin/mahout文件...MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.min.split.size=10MB"..MAHOUT_OPTS="$MAHOUT_OPTS-Dmapred.map.tasks=10"在每次迭代中我得到12/09/1217:05:02INFOmapred.JobClient:Launchedmaptasks=112/09/1217:05:02INFOmapred.JobClient:Launchedreducetasks=612/09/1217:05:02IN

hadoop mahout section MAHOUT_OPTS blockquote

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

showing hadoop cluster apache new mahout k-means

python - 基于mapreduce和hadoop的迭代kmeans

我已经为Hadoop编写了一个简单的k-means集群代码(两个独立的程序-mapper和reducer)。该代码正在我本地盒子上的一个小型二维点数据集上工作。它是用Python编写的，我打算使用StreamingAPI。每次运行mapper和reducer后，都会生成新的中心。这些中心是下一次迭代的输入。根据建议，我使用了mrjob,jobpython，适合多步，defsteps(self):return[self.mr(mapper=self.anything,combiner=self.anything,reducer=self.anything)]这只是一次迭代，请告诉我在生成

mapreduce python section 射器 reducer hadoop mrjob

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中？

我正在尝试将MahoutKMeans用于一个简单的应用程序。我根据数据库内容手动创建了一系列向量。我只是想将这些向量提供给Mahout(0.9)，例如KMeansClusterer并使用输出。我阅读了MahoutinAction(版本0.5中的示例)和许多在线论坛以获取背景知识。但是，如果没有通过Hadoop使用文件名和文件路径，我再也看不到使用MahoutKMeans(或相关集群)的方法了。文档非常简略，但是Mahout是否可以再以这种方式使用？当前是否有任何使用MahoutKMeans的示例(不是来自命令行)。privateListkMeans(Listallvectors,dou

hadoop Mahout new section k-means

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好，我试图在Mahout中运行KmeanClusteringExample，但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface)，我的理解)。我想在我的样本数据集上运行kmeans，任何人都可以指导我吗？我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

Cluster hadoop import new apache compiler-errors mahout k-means

c++ - OpenCV 在图像上运行 kmeans 算法

我试图在3channel彩色图像上运行kmeans，但每次我尝试运行该函数时它似乎崩溃并出现以下错误:OpenCVError:Assertionfailed(data.dims0)inunknownfunction,file..\..\..\OpenCV-2.3.0\modules\core\src\matrix.cpp,line2271我在下面的代码中包含了一些注释，以帮助指定传入的内容。非常感谢任何帮助。//Loadinanimage//Depth:8,Channels:3IplImage*iplImage=cvLoadImage("C:/TestImages/rainbox_bo

amp OpenCV code section mLabels c++c image-processing k-means

c++ - OpenCV K 均值 (kmeans2)

我正在使用Opencv的K-means实现对大量8维vector进行聚类。它们很好地聚类，但我找不到任何方法来查看聚类过程创建的原型(prototype)。这可能吗？OpenCV似乎只允许访问集群索引(或标签)。如果没有，我想是时候自己实现了! 最佳答案我不能说我使用了OpenCV的Kmeans实现，但如果您可以访问给每个实例的标签，您可以通过计算属于每个集群的实例的平均vector来简单地获取质心。关于c++-OpenCVK均值(kmeans2)，我们在StackOverflow上

amp kmeans2 section OpenCV stackoverflow c++cluster-analysis k-means

python - 当我们只向 kmeans 提供单个单词的 tfidf 向量时，kmeans 如何知道如何对文档进行聚类？

我正在使用scikitlearn的Kmeans算法对评论进行聚类。sentence_list=['hellohowareyou',"Iamdoinggreat","mynameisabc"]vectorizer=TfidfVectorizer(min_df=1,max_df=0.9,stop_words='english',decode_error='ignore')vectorized=vectorizer.fit_transform(sentence_list)km=KMeans(n_clusters=num_clusters,init='k-means++',n_init=10,

kmeans 单词 code section pre python scipy scikit-learn nltk k-means

python openCV : kmeans example not working

我正在研究openCV示例，但有时这些示例无法运行。在许多情况下，我只需要做一些小的改动，然后它就可以工作了。在这种情况下，到目前为止我没有找到解决方案。如果我运行以下代码，我会在kmeans行上收到错误。我检查了数据类型，似乎一切正常。任何人都知道出了什么问题？谢谢!来自https://github.com/Itseez/opencv的代码示例:'''Keyboardshortcuts:ESC-exitspace-generatenewdistribution'''importnumpyasnpimportcv2fromgaussian_miximportmake_gaussians

example working section cluster_n cluster python opencv k-means

3 4 567 8 9