草庐IT

silhouette

全部标签

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类,现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间,所以我假设我需要使用采样,即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过,我不太清楚什么是合适的抽样方法。给定矩阵的大小,是否有关于使用多大样本的经验法则?是取我的分析机可以处理的最大样本更好,还是取更多较小样本的平均值更好?我

聚类的外部指标(Purity, ARI, NMI, ACC) 和内部指标(NCC,Entropy,Compactness,Silhouette Index),附代码 (Python 和 Matlab)

聚类性能评估的外部指标和内部指标,附代码(Python和Matlab)文章目录聚类性能评估的外部指标和内部指标,附代码(Python和Matlab)1外部指标1.1Purity原理解释Python代码Matlab代码1.2ARI原理解释Python代码Matlab代码1.3NMI原理解释Python代码Matlab代码1.4ACCPython代码Matlab代码2内部指标2.1Internalandexternalvalidationmeasures(NCC)原理解释Python代码Matlab代码2.2Entropy原理解释Python代码matlab代码2.3Compactness原理解释