【机器学习】K-means聚类分析

hjk-airl 2023-04-18 原文

前言

聚类问题是无监督学习的问题，算法思想就是物以类聚，人以群分，聚类算法感知样本间的相似度，进行类别归纳，对新输入进行输出预测，输出变量取有限个离散值。本次我们使用两种方法对鸢尾花数据进行聚类。

无监督就是没有标签的进行分类

K-means 聚类算法

K-means聚类算法（k-均值或k-平均）聚类算法。算法思想就是首先随机确定k个中心点作为聚类中心，然后把每个数据点分配给最邻近的中心点，分配完成后形成k个聚类，计算各个聚类的平均中心点，将其作为该聚类新的类中心点，然后迭代上述步骤知道分配过程不在产生变化。

算法流程

随机选择K个随机点（成为聚类中心）
对数据集中的每个数据点，按照距离K个中心点的距离，将其与距离最近的中心点关联起来，与同一中心点关联的所有点聚成一类
计算每一组的均值，将改组所关联的中心点移动到平均值位置
重复上两步，直至中心点不再发生变化

优缺点

优点：

原理比较简单，实现容易，收敛速度快
聚类效果比较优
算法可解释度比较强
主要需要调参的参数仅仅是簇数K

缺点：

K值选取不好把握
不平衡数据集聚类效果不佳
采用迭代方法，得到结果只是局部最优
对噪音和异常点比较敏感

鸢尾花聚类

数据集

数据集：数据集采用sklern中的数据集

数据集分布图：我们可以看出数据的大致分布情况

使用sklearn中的模型

# 鸢尾花数据集 150 条数据

## 导包
import numpy as np
import matplotlib.pyplot as plt

# 导入数据集包
from sklearn import datasets

from sklearn.cluster import KMeans

## 加载数据据集
iris = datasets.load_iris()

X = iris.data[:,:4]
print(X.shape)  # 150*4

## 绘制二维数据分布图
## 前两个特征

plt.scatter(X[:,0],X[:,1],c='red',marker='o',label='see')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc=2)
plt.show()

'''
直接调用包
'''

## 实例化K-means类，并定义训练函数
def Model(n_clusters):
    estimator = KMeans(n_clusters=n_clusters)
    return estimator
## 定义训练韩硕
def train(estimator):
    estimator.fit(X)


## 训练
estimator = Model(3)

## 开启训练拟合
train(estimator=estimator)


## 可视化展示

label_pred = estimator.labels_ # 获取聚类标签

## 找到3中聚类结构
x0 = X[label_pred==0]
x1 = X[label_pred==1]
x2 = X[label_pred==2]

plt.scatter(x0[:,0],x0[:,1],c='red',marker='o',label='label0')
plt.scatter(x1[:,0],x1[:,1],c='green',marker='*',label='label1')
plt.scatter(x2[:,0],x2[:,1],c='blue',marker='+',label='label2')

plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc=2)
plt.show()

聚类结果

我们可以看出聚类结果按照我们的要求分为了三类，分别使用红、蓝、绿三种颜色进行了展示！
聚类效果图：

手写K-means算法

# 鸢尾花数据集 150 条数据

## 导包
import numpy as np
import matplotlib.pyplot as plt

# 导入数据集包
from sklearn import datasets

from sklearn.cluster import KMeans

## 加载数据据集
iris = datasets.load_iris()

X = iris.data[:,:4]
print(X.shape)  # 150*4

## 绘制二维数据分布图
## 前两个特征

plt.scatter(X[:,0],X[:,1],c='red',marker='o',label='see')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc=2)
plt.show()

'''
直接手写实现
'''

'''
1、随机初始化 随机寻找k个簇的中心
2、对这k个中心进行聚类
3、重复1、2，知道中心达到稳定
'''

### 欧氏距离计算
def distEclud(x,y):
    return np.sqrt(np.sum((x-y)**2))

### 为数据集定义簇的中心
def randCent(dataSet,k):
    m,n = dataSet.shape
    centroids = np.zeros((k,n))
    for i in range(k):
        index = int(np.random.uniform(0,m))
        centroids[i,:] = dataSet[index,:]

    return centroids

## k均值聚类算法
def KMeans(dataSet,k):
    m = np.shape(dataSet)[0]

    clusterAssment = np.mat(np.zeros((m,2)))
    clusterChange = True

    ## 1 初始化质心centroids
    centroids = randCent(dataSet,k)

    while clusterChange:
        # 样本所属簇不在更新时停止迭代
        clusterChange = False

        # 遍历所有样本
        for i in range(m):
            minDist = 100000.0
            minIndex = -1

            # 遍历所有质心
            # 2 找出最近质心
            for j in range(k):
                distance = distEclud(centroids[j,:],dataSet[i,:])
                if distance<minDist:
                    minDist = distance
                    minIndex = j

            # 更新该行所属的簇
            if clusterAssment[i,0] != minIndex:
                clusterChange = True
                clusterAssment[i,:] = minIndex,minDist**2

        # 更新质心
        for j in range(k):
            pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]] # 获取对应簇类所有的点
            centroids[j,:] = np.mean(pointsInCluster,axis=0)

    print("cluster complete")
    return centroids,clusterAssment


def draw(data, center, assment):
    length = len(center)
    fig = plt.figure
    data1 = data[np.nonzero(assment[:,0].A == 0)[0]]
    data2 = data[np.nonzero(assment[:,0].A == 1)[0]]
    data3 = data[np.nonzero(assment[:,0].A == 2)[0]]

    # 选取前两个数据绘制原始数据的散点

    plt.scatter(data1[:,0],data1[:,1],c='red',marker='o',label='label0')
    plt.scatter(data2[:,0],data2[:,1],c='green',marker='*',label='label1')
    plt.scatter(data3[:,0],data3[:,1],c='blue',marker='+',label='label2')

    # 绘制簇的质心点
    for i in range(length):
        plt.annotate('center',xy=(center[i,0],center[i,1]),xytext=(center[i,0]+1,center[i,1]+1),arrowprops=dict(facecolor='yellow'))

    plt.show()

    # 选取后两个维度绘制原始数据散点图
    plt.scatter(data1[:, 2], data1[:, 3], c='red', marker='o', label='label0')
    plt.scatter(data2[:, 2], data2[:, 3], c='green', marker='*', label='label1')
    plt.scatter(data3[:, 2], data3[:, 3], c='blue', marker='+', label='label2')

    # 绘制簇的质心点
    for i in range(length):
        plt.annotate('center', xy=(center[i, 2], center[i, 3]), xytext=(center[i, 2] + 1, center[i, 3] + 1),
                     arrowprops=dict(facecolor='yellow'))

    plt.show()


## 调用

dataSet = X
k = 3
centroids,clusterAssment = KMeans(dataSet,k)
draw(dataSet,centroids,clusterAssment)

效果图展示

我们可以看到手写实现的也通过三种颜色实现类，可以看出两种方式实现结果是几乎相同的。

根据花萼长度花萼宽度聚类
根据花瓣长度花瓣宽度聚类：

总结

我们既可以使用sklearn包中封装好的模型进行聚类分析，也可以自己手写实现，在某些问题上，两者都可以达到相同的结果，我们对于不同的问题可以更合适的方法进行处理。

有关【机器学习】K-means聚类分析的更多相关文章

ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
ruby - :this means in Ruby on Rails? 是什么 - 2
我是Ruby和RubyonRails世界的新手。我已经阅读了一些指南，但我在使用以下语法时遇到了一些麻烦。我认为在Ruby中使用:condition语法来定义具有某种访问器的类属性，例如:classSampleattr_accessor:conditionend隐式声明“条件”属性的getter和setter。当我查看一些Rails示例代码时，我发现以下示例我并不完全理解。例如:@post=Post.find(params[:id])为什么它使用这种语法访问id属性，而不是:@post=Post.find(params[id])或者，例如:@posts=Post.find(:all):
ruby - : mean in rails before a variable name? 是什么 - 2
例如，:符号-我正在尝试弄清楚:的含义，以及它与@的区别也没有任何符号。如果有真正有用的指南! 最佳答案它是一个符号，是一种Ruby语言结构。符号类似于字符串，但thisblogpost解释细节。@表示类的实例变量:它基本上是一个在类实例的所有方法之间共享的变量。它与:无关。关于ruby-:meaninrailsbeforeavariablename?是什么，我们在StackOverflow上找到一个类似的问题： https://stackoverflow
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG