草庐IT

Hadoop 流与 python K-MEANS

我想用hadoopmapreduce和python做一个简单的k-means。映射器获取点并将每个点映射到其最近的中心。reducer以center为key,points为value,计算一个新的center到points。但是现在,我需要从reducer收集所有新的中心,并以某种方式将它们提供给映射器在下一轮。我该怎么做?我需要为每个maptask设置一个全局中心阵列。正确的做法是什么? 最佳答案 有关如何编码全局常量的信息,请参阅thisquestion.映射器接受数据表示中心列表的全局常量计算每个数据实例最近的中心发射最近的中

java - 使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭9年前。我正在尝试使用Mahout运行集群程序。以下是我正在使用的java代码packagecom;importjava.io.File;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuratio

amazon-web-services - AWS 命令​​行 : What "Outbound connections on 443 must be enabled" means?

这里是网络新手。背景我正在尝试使用AWS命令​​行实用程序连接到我在AWS云上的实例。问题当我尝试一个简单的命令(来自本地计算机或EC2)时,例如...awsec2describe-instances我明白了...CouldnotconnecttotheendpointURL:"https://ec2.sa-east-1a.amazonaws.com/"这很好,因为根据AWSCommandLineUserManual我应该注意:TheAWSCLImakesAPIcallstoservicesoverHTTPS.OutboundconnectionsonTCPport443mustbee

ios - 核心文本 : Simplest accurate means of getting text bounds?

问题:使用CoreText获取给定文本行边界的最简单准确方法是什么?问题:我尝试了多种技术,但得到的结果不一致。上下文:我一直在努力弄清楚如何找到目前单行文本的实际范围。CoreText文档在框架、行和运行级别例程返回什么方面充其量是不完整的,声明它们返回“实际”边界,而实际上它们不同意(至少在框架级别),并且不'返回特定字符串的实际边界,但返回的大小似乎大于字体大小的预测值。但是,当我获得单个字形的边界时,我确实看到了不同字符之间的差异,这表明这是唯一准确的方法(遍历所有字形,找到它们的有效并集)。我已经在playground文件中编写了一些测试,我是否遗漏了一些明显的东西?我的最终

python - 如何将列中的 k-means 预测聚类添加到 Python 中的数据框

我对python中的kmeans聚类有疑问。所以我是这样分析的:fromsklearn.clusterimportKMeanskm=KMeans(n_clusters=12,random_state=1)new=data._get_numeric_data().dropna(axis=1)km.fit(new)predict=km.predict(new)如何将具有聚类结果的列作为附加列添加到我的第一个数据框“数据”中?谢谢! 最佳答案 假设列长度与数据框df中的每一列相同,您需要做的就是:df['NEW_COLUMN']=pd.S

python - 如何使用 KNN/K-means 对数据帧中的时间序列进行聚类

假设一个包含1000行的数据框。每行代表一个时间序列。然后我构建了一个DTW算法来计算2行之间的距离。我不知道下一步该怎么做才能完成数据框的无监督分类任务。如何标记数据框的所有行? 最佳答案 定义KNNalgorithm=K-nearest-neighbourclassificationalgorithmK-means=centroid-basedclusteringalgorithmDTW=DynamicTimeWarpingasimilarity-measurementalgorithmfortime-series我在下面逐步展

python - 如何使用 Python 从最高到最低设置 k-Means 聚类标签?

我有一个包含38间公寓及其早上、下午和晚上的用电量的数据集。我正在尝试使用scikit-learn中的k-Means实现对该数据集进行聚类,并得到了一些有趣的结果。第一个聚类结果:一切都很好,对于4个集群,我显然得到了与每个公寓关联的4个标签-0、1、2和3。使用KMeans的random_state参数>方法,我可以修复其中随机初始化质心的种子,因此我始终如一地获得归因于相同公寓的相同标签。但是,由于此特定案例涉及能源消耗,因此可以在最高和最低消费者之间执行可衡量的分类。因此,我想将标签0分配给消费水平最低的公寓,将标签1分配给消费多一点的公寓,依此类推。截至目前,我的标签是[213

python - 使用 Scikit Learn K-Means 大放异彩

我正在尝试使Blaze数据对象适合scikitkmeans函数。fromblazeimport*fromsklearn.clusterimportKMeansdata_numeric=Data('data.csv')data_cluster=KMeans(n_clusters=5)data_cluster.fit(data_numeric)数据样本:ABC1323455792896721它的抛出错误:我已经能够使用PandasDataframe做到这一点。有什么方法可以将blaze对象提供给此函数? 最佳答案 我认为您需要在适合之前

python - 我可以在字符串上使用 K-means 算法吗?

我正在研究RNA结构进化的python项目(表示为字符串,例如:“(((...)))”,其中括号代表碱基对)。关键是我有一个理想的结构和一个朝着理想结构进化的人口。我已经实现了所有内容,但是我想添加一个功能,我可以获得“桶数”,即每一代人口中k个最具代表性的结构。我正在考虑使用k-means算法,但我不确定如何将它用于字符串。我找到了scipy.cluster.vq但我不知道如何在我的案例中使用它。谢谢! 最佳答案 如果使用scipy.cluster.vq.kmeans,您将面临的一个问题是该函数使用欧氏距离来衡量接近度。要将您的问

python - Scikit Learn - K-Means - 弯头 - 标准

今天我想学习一些关于K-means的知识。我已经了解算法并且我知道它是如何工作的。现在我正在寻找正确的k...我发现肘部标准是一种检测正确k的方法,但我不明白如何将它与scikitlearn一起使用?!在scikitlearn中,我以这种方式对事物进行聚类kmeans=KMeans(init='k-means++',n_clusters=n_clusters,n_init=10)kmeans.fit(data)所以我应该为n_clusters=1...n执行几次并观察错误率以获得正确的k吗?认为这会很愚蠢并且会花费很多时间?! 最佳答案