五种常见的聚类算法总结

CVplayer111 2023-04-09 原文

一、关于聚类的基础描述

1.1 聚类与分类的区别

聚类是一种无监督学习，即数据不需要有标签即可。它与分类不同，分类是对有标签的数据进行的，是一种有监督学习。这是两者的区别。（举个例子，一堆人站在这里，没有标签，我们可以采用聚类来对这群人分组，如选取身高这个指标来对他们聚类。而如果是分类，比如男女分，按照每个人的性别标签即可。聚类不需要标签，只要我们自己选择一个指标，按指标来分簇即可。）

1.2 聚类的概念

聚类是按照某个指标（如样本之间的距离）把数据集分割成不同的类或者簇，使类内元素的相似性尽可能的大，类间元素的相似性尽可能小，通过这样来对相似的数据进行归簇，从而达到聚类的效果。

1.3 聚类的步骤

1.数据准备：特征标准化（白化）

2.特征选择：特征降维，选择最有效的特征

3.特征提取：对选择的特征进行转换，提取出更有代表性的特征

4.聚类：基于特定的度量函数进行相似度度量，使得同一类数据的相似度尽可能的贴近，不同类的数据尽可能分离，得到各个类的中心以及每个样本的类标签。

5.评估：分析聚类结果，如距离误差和误差平方和（SSE）等

二、几种常见的聚类算法

2.1 K-means聚类算法

1) K-means算法的流程：

1.随机选取K个中心点

2.遍历数据集里面的每个点，看距离哪个中心点最近就分为哪一类，遍历完一共K类

3.把属于一类的点取平均值，得到的平均值作为新的中心点

4.然后不断重复步骤2，3，直到达到结束条件为止。（当中心点不再变动或变动很小，当达到最大迭代次数）

2）K-means算法的优缺点及算法复杂度

优点：

原理简单，算法复杂度较低

缺点：

k值未知，需要人为设定

对于初始化中心点特别敏感，不同的初始化，结果可能不一样

容易受到噪声的影响，可能收敛于局部最小值，同时数据量大时收敛速度较慢

不太适合离散的数据，样本类别不均衡的数据的聚类

k-means 有一个重要特征，它要求这些簇的模型必须是圆形：k-means 算法没有内置的方法
来实现椭圆形的簇

算法复杂度：

O(t*k*n*d) t是迭代次数，k是类数，n是数据点个数，d是数据维度

3）K-means算法的调优与改进

k值的选取问题，K-means++，或者先使用谱聚类或层次聚类对样本进行聚类，得到K

，或使用手肘法，遍历可能的K值，画出该点下Loss的大小，选择曲线的拐点处的K值

对于数据量大的情况，可以选择mini-batch的方法，不过准确度会下降

初始点敏感的问题，可以选择多种初始点情况，选择误差最小的一种

噪声影响问题，K-medoids，将步骤3改为，求一个类里面，每个点到类内其他点距离和最小的，选择它作为我们下一步的中心点，这样就有效缓解了噪声问题

4）K-means算法的python代码实现

import numpy as np
import random

def cal_distance(node,centor):
    return np.sqrt(np.sum(np.square(node-centor)))
def random_centor(data,k):
    data=list(data)
    return random.sample(data,k)
def random_centor1(data,k):
    n=len(data[0])#n维
    centor=np.array([[0]*n for _ in range(k)])#一定要将列表转换为数组
    for j in range(n):
        min_j=np.min(data[:,j])
        max_j=np.max(data[:,j])
        centor[:,j]=np.random.rand(k)*(max_j-min_j)+min_j
    return centor
def get_cluster(data,centor):
    cluster_dict=dict()
    k=len(centor)
    for node in data:
        cluster_class = -1
        min_distance = float('inf')
        for i in range(k):
            dist=cal_distance(node,centor[i])
            if dist<min_distance:
                cluster_class=i
                min_distance=dist
        if cluster_class not in cluster_dict.keys():
            cluster_dict[cluster_class]=[]
        cluster_dict[cluster_class].append(node)
    return cluster_dict

def get_centor(cluster_dict,k):
    new_centor=[]
    for i in range(k):
        centor=np.mean(cluster_dict[i],axis=0)
        new_centor.append(centor)
    return new_centor

def cal_varience(cluster_dict,centor):
    vsum=0
    for i in range(len(centor)):
        cluster=cluster_dict[i]
        for j in cluster:
            vsum+=cal_distance(j,centor[i])
    return vsum

def k_means(data,k):
    centor=random_centor(data,k)
    print(centor)
    cluster_dict=get_cluster(data,centor)
    new_varience=cal_varience(cluster_dict,centor)
    old_varience=1
    while abs(old_varience-new_varience)>0.1:
        centor=get_centor(cluster_dict,k)
        cluster_dict=get_cluster(data,centor)
        old_varience=new_varience
        new_varience=cal_varience(cluster_dict,centor)
    return cluster_dict,centor


data=np.array([[1,1,1],[2,2,2],[1,2,1],[9,8,7],[7,8,9],[8,9,7]])
a,b=k_means(data,2)
print(a,b)

2.2 GMM高斯混合模型聚类算法

2.3 Mean shift聚类算法

mean shift的本质就是中心点向着密度越来越大的地方进行偏移，最终收敛到样本密度最大的地方。它的参数R往往靠经验选取

1）单点mean shift算法基本流程

1.随机选择一个点作为球心，半径选为R

2.以球心为起点，球内样本点为终点，将他们的向量相加后求平均，得到meanshift值

3.球心+mean shift值得到更新后的球心。

4.不断重复23直到球心不再移动或移动微小

2）整个数据集的meanshift聚类流程

1.在未被标记的数据点中随机选择一个点作为原始中心点

2.找出以中心点为球心，半径为R的球体中所有数据点，认为他们为聚类C，同时在C类中记录这些数据点出现的次数+1

3.以球心为起点，球内样本点为终点，将他们的向量相加后求平均，得到meanshift值

4.球心+meanshift的值，得到更新后的球心

5.重复234直到meanshift很小或者不移动，记录下此时的中心点，注意迭代过程中遇到的点都应该归类到C

6.判断收敛时的C类中心点与其他已经存在的类的中心点距离是否小于阈值，如果小于就把他们合并，数据点出现的次数也应该合并，如果大于，就把C当作一个新的聚类

7.重复123456直到所有点都被标记为已访问

8.对每个点，哪个类访问次数最多，就归属于哪个类。

3）meanshift聚类算法的优缺点及算法复杂度

优点：可以自动确定类的个数

对噪声比较强壮

参数简单

缺点：容易陷入局部最优

主要在欧式空间工作，在高维数据中不起作用

算法复杂度：

O(Tnlog(n)) T是迭代中选取的中心点数。

4）meanshift在图像分割和目标跟踪领域的应用

这里首先说一下，在之前的meanshift里面我们都没有讨论核函数，因为是学习基础概念，所以没必要搞太复杂，但是实际应用中，在球体内，离的远的点和离得进的点对于球心的影响权重是一样的，这显然不合理。所以引入了核函数和权重系数。核函数也叫窗口函数，在核估计中起到平滑的作用。常用的核函数有：Uniform，Epannechnikov，Gaussian等。同时在图像的处理中，一般不是球体，而是矩形。

meanshift在图像分割中的步骤：

1.将图像表示为空间中的点，一种简单的方法就是使用红绿蓝像素值，将每个像素映射到三维RGB空间中的一个点

2.对获取的点集进行meanshift聚合，一般使用高斯核函数。

3.不同的集合就构成了图像分割

meanshift在目标追踪中的步骤：

1.用运动检测算法将物体与背景分割开来

2.提取运动物体的轮廓，并从原图中获取运动图像信息

3.对这个信息进行反向投影，获取反向投影图

4.根据反向投影图和输入的方框进行meanshift迭代，迭代中会向反向投影图中概率大的地方移动，所以始终会移动到目标上

5.下一帧的图像时用上一帧输出的方框来迭代即可。

meanshift用于视频目标追踪，其实就是采用目标的颜色直方图作为搜索特征，将目标区域转化成HSV颜色空间，然后得到H的分布直方图，有了它之后，我们就是要在下一帧里面得到相同的它，这时我们采用相似函数来表述他们的相似性，让方框在最新一帧中向着相似度最大的区域移动。

meanshift在目标追踪中的优点：

1.算法计算量不大，在目标区域已知的情况下效果很好

2.采用核函数直方图模型，对边缘遮挡，目标旋转等不是很敏感

缺点：

1.目标速度太快效果不好

2.如果运动中目标被遮挡，跟踪就会失败。

5）单点meanshift的python代码实现

import numpy as np

def load_data():
    #dtype如果不设置默认为float，comments是指如果该行以‘#’开头，那么就跳过，usecols是指只使用0，2两列。unpack如果为True，则把0，2两列单独输出，skiprows是指跳过第一行
    data=np.loadtxt('data/meanshift.txt', dtype=int, comments='#', delimiter=None, skiprows=1, usecols=(0,2), unpack=False)
    return np.array(data)

class MeanShift:
    def __init__(self,mean,radius):
        self.mean=mean
        self.radius=radius

    def compute_distance(self,data):
        return np.sqrt(np.sum(np.square(data-self.mean),axis=1))

    def in_ball(self,data):
        distance=self.compute_distance(data)
        inball_index=np.argwhere(distance<self.radius)
        #因为argwhere生成的是n行一列的
        return inball_index.reshape(len(inball_index),)


    def compute_meanshift(self,data,inball_index):
        in_data=data[inball_index]
        all_vector=in_data-self.mean
        #这里需要注意np.sum求完会降维
        meanshift=np.sum(all_vector,axis=0)/len(all_vector)
        return meanshift
    def update_mean(self,meanshift):
        self.mean=self.mean+meanshift

def main(mean,radius):
    data=np.array([[2,3,1],[0,1,0],[2,0,0],[0,2,0]])
    obj=MeanShift(mean,radius)
    while True:
        inball_index=obj.in_ball(data)
        meanshift=obj.compute_meanshift(data,inball_index)
        if np.sqrt(np.sum(np.square(meanshift)))<0.1:
            break
        obj.update_mean(meanshift)
    return obj.mean
c=main(np.array([1,1,1]),9)
print(c)

2.4 基于密度的DBSCAN聚类算法

1）DBSCAN算法的基本概念

DBSCAN是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并可以在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

参数：半径和min_point

选择技巧：一般先选一个点，计算它与其他所有点的距离，然后排序，找到前后变化很大的一处，然后R就选则突变点即可。这个选的太大，簇就少，选的太小，簇就多，可以适当调整

min_point一般这个值都偏小，可以多次尝试一下。

2）DBSCAN的基本流程

1.把所有点标记为未见

2.随机在数据集中选择一个未标记点P，找到它的邻域R

3.判断R里面包含的样本点个数是否大于min_point,如果小于，则为噪声点，标记为已见，如果大于，则P为核心点，创建一个类C，邻域R里面的点都属于类C，如果邻域R内除了P还有其他核心点。则他们邻域里面的点也属于类C，一直迭代，直到核心点邻域里只有它自己为核心点才停止。

4.从数据集中移除C类，重复执行234，直到所有的点都是已标记为止。

3）DBSCAN的优缺点及算法复杂度

优点：

1.可以自动决定类的数量。不需要人为假设。

2.可以发现任意形状的簇类，而不像K-means那样只能发现圆形簇

3.可以识别噪声点，抗噪声能力较强

缺点：

1.不能很好的应用在高维数据中

2.如果样本集的密度不均匀，效果就不好

算法复杂度：

O(nlog(n)) n是数据点个数

4）DBSCAN的代码实现

import numpy as np
#如果是列表这里就不能这样计算，data1-data2是不合法的
def cal_distance(data1,data2):
    data1=np.array(data1)
    data2=np.array(data2)
    return np.sqrt(np.sum(np.square(data1-data2)))
#pop()按照索引删除，del也是按照索引删除，remove是按照值删除,
def DBSCAN(data,r,min_point):
    #第一步将数据中的核心点找出来放入q
    q=[]
    for i in range(len(data)):
        count=0
        for j in range(len(data)):
            if cal_distance(data[i],data[j]) < r:
                count+=1
        if count>=min_point:
            q.append(data[i])
    c=[[] for _ in range(len(q))]
    #对整个数据集进行分类，属于哪个关键点就分配进去，最终data里面不为0的就是噪声点
    for i in range(len(q)):
        for j in range(len(data)):
            if data[j]!=0 and cal_distance(q[i],data[j])<r:
                c[i].append(data[j])
                data[j]=0
    #找到噪声点。这里我用双指针实现噪声点筛选
    i=0
    for j in range(len(data)):
        if data[j]!=0:
            data[i]=data[j]
            i+=1
    noise=data[:i]
    #d里面存放聚类结果
    d=[]
    while True:
        kernal_1=q[0]
        i=1
        for j in range(1,len(q)):
            if cal_distance(kernal_1,q[j])<r:
                q[i],q[j]=q[j],q[i]
                c[i],c[j]=c[j],c[i]
                i+=1
        for k in range(1,i):
            c[kernal_1]+=c[k]
        if i>=len(q):
            break
        q=q[i:]
        d.append(c[:i])
        c=c[i:]
    d.append(c[:i])
    return d,noise


class_res,noise=DBSCAN([[1,2,3],[4,5,6],[7,8,9]],1,1)
print(class_res,noise)
# import numpy
#
# a=[1,2,3]
# print(a!=0)只返回一个True或False
# a=numpy.array([1,2,3])
# print(a!=0)返回n个True或False
# #如果要计算两个点之间的欧式距离，一定要将列表转为array再计算。因为列表不支持a-b

2.5谱聚类spectral clustering

五种种 quot amp lt

有关五种常见的聚类算法总结的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
git使用常见问题（提交代码，合并冲突） - 2
文章目录git常用命令（简介，详细参数往下看）Git提交代码步骤gitpullgitstatusgitaddgitcommitgitpushgit代码冲突合并问题方法一：放弃本地代码方法二：合并代码常用命令以及详细参数gitadd将文件添加到仓库：gitdiff比较文件异同gitlog查看历史记录gitreset代码回滚版本库相关操作远程仓库相关操作分支相关操作创建分支查看分支：gitbranch合并分支：gitmerge删除分支：gitbranch-ddev查看分支合并图：gitlog–graph–pretty=oneline–abbrev-commit撤消某次提交git用户名密码相关配置g
ruby - 将对象设置为 nil 是否很常见？ - 2
我正在构建一个应用程序，想知道是否将未使用的对象设置为nil是生产级编码中的常见做法。我知道这只是垃圾收集器的提示，并不总是处理对象。最佳答案根据这个thread如果您使用完一个成员对象，将其设置为nil将引发被引用对象被垃圾回收。如果它是局部变量，方法exit将做同样的事情。也就是说，如果您要求将成员显式设置为nil，我会质疑您的设计。关于ruby-将对象设置为nil是否很常见？，我们在StackOverflow上找到一个类似的问题： https://
ruby - 变量赋值后的 if 语句 - 有多常见？ - 2
我最近与一位同事讨论了以下Ruby语法:value=ifa==0"foo"elsifa>42"bar"else"fizz"end我个人并没有看到太多这种逻辑，但我的同事指出，这实际上是一种相当普遍的Rubyism。我试着用谷歌搜索这个主题，但没有找到任何文章、页面或SO问题来讨论它，这让我相信这可能是一种非常实际的技术。然而，另一位同事发现语法令人困惑，而是将上面的逻辑写成这样:ifa==0value="foo"elsifa>42value="bar"elsevalue="fizz"end缺点是value=的重复声明和隐式elsenil的丢失，如果我们想使用它的话。这也感觉它与Ruby
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
常见网络安全产品汇总（私信发送思维导图） - 2
安全产品安全网关类防火墙Firewall防火墙防火墙主要用于边界安全防护的权限控制和安全域的划分。防火墙•信息安全的防护系统，依照特定的规则，允许或是限制传输的数据通过。防火墙是一个由软件和硬件设备组合而成，在内外网之间、专网与公网之间的界面上构成的保护屏障。下一代防火墙•下一代防火墙，NextGenerationFirewall，简称NGFirewall，是一款可以全面应对应用层威胁的高性能防火墙，提供网络层应用层一体化安全防护。生产厂家•联想网御、CheckPoint、深信服、网康、天融信、华为、H3C等防火墙部署部署于内、外网编辑额，用于权限访问控制和安全域划分。UTM统一威胁管理（Un
Simulink方法总结和避坑指南（一）——Simulink入门与基本调试方法 - 2
文章目录一、项目场景二、基本模块原理与调试方法分析——信源部分：三、信号处理部分和显示部分：四、基本的通信链路搭建：四、特殊模块：interpretedMATLABfunction：五、总结和坑点提醒一、项目场景最近一个任务是使用simulink搭建一个MIMO串扰消除的链路，并用实际收到的数据进行测试，在搭建的过程中也遇到了不少的问题（当然这比vivado里面的debug好不知道多少倍）。准备趁着这个机会，先以一个很基本的通信链路对simulink基础和相关的debug方法进行总结。在本篇中，主要记录simulink的基本原理和基本的SISO通信传输链路（QPSK方式），计划在下篇记
关于Qt程序打包后运行库依赖的常见问题分析及解决方法 - 2
目录一.大致如下常见问题：（1）找不到程序所依赖的Qt库version`Qt_5'notfound(requiredby（2）CouldnotLoadtheQtplatformplugin"xcb"in""eventhoughitwasfound（3）打包到在不同的linux系统下，或者打包到高版本的相同系统下，运行程序时，直接提示段错误即segmentationfault，或者Illegalinstruction(coredumped)非法指令（4）ldd应用程序或者库，查看运行所依赖的库时，直接报段错误二.问题逐个分析，得出解决方法：（1）找不到程序所依赖的Qt库version`Qt_5'
ruby - 在 Ruby 中实现 Luhn 算法 - 2
我一直在尝试用Ruby实现Luhn算法。我一直在执行以下步骤:该公式根据其包含的校验位验证数字，该校验位通常附加到部分帐号以生成完整帐号。此帐号必须通过以下测试:从最右边的校验位开始向左移动，每第二个数字的值加倍。将乘积的数字(例如，10=1+0=1、14=1+4=5)与原始数字的未加倍数字相加。如果总模10等于0(如果总和以零结尾)，则根据Luhn公式该数字有效；否则无效。http://en.wikipedia.org/wiki/Luhn_algorithm这是我想出的:defvalidCreditCard(cardNumber)sum=0nums=cardNumber.to_s.s

五种常见的聚类算法总结

一、关于聚类的基础描述

1.1 聚类与分类的区别

1.2 聚类的概念

1.3 聚类的步骤

二、几种常见的聚类算法

2.1 K-means聚类算法

1) K-means算法的流程：

2）K-means算法的优缺点及算法复杂度

3）K-means算法的调优与改进

4）K-means算法的python代码实现

2.2 GMM高斯混合模型聚类算法

2.3 Mean shift聚类算法

1）单点mean shift算法基本流程

2）整个数据集的meanshift聚类流程

3）meanshift聚类算法的优缺点及算法复杂度

4）meanshift在图像分割和目标跟踪领域的应用

5）单点meanshift的python代码实现

2.4 基于密度的DBSCAN聚类算法

1）DBSCAN算法的基本概念

2）DBSCAN的基本流程

3）DBSCAN的优缺点及算法复杂度

4）DBSCAN的代码实现

2.5谱聚类spectral clustering

有关五种常见的聚类算法总结的更多相关文章

随机推荐