草庐IT

机器学习-Kmeans

一、什么是聚类算法?1、用于发现共同的群体(cluster),比如:邮件聚类、用户聚类、图片边缘。2、聚类唯一会使用到的信息是:样本与样本之间的相似度(跟距离负相关)给定N个训练样本(未标记的){x1,...,xN},同时给定结果聚类的个数K目标:把比较“接近”的样本放到一个cluster里,总共得到K个cluster 二、不同场景的判定内容图片检索:图片内容相似度图片分割:图片像素(颜色)相似度网页聚类:文本内容相似度社交网络聚类:(被)关注人群,喜好,喜好内容电商用户聚类:点击/加车/购买商品,行为序列…三、样本—向量—距离  四、Kmeans聚类和层次聚类Kmeans聚类:得到的聚类是一