当前位置: 首页 > news >正文

机器学习——聚类算法

一、聚类的概念

根据样本之间的相似性,将样本划分到不同的类别中的一种无监督学习算法。

细节:根据样本之间的相似性,将样本划分到不同的类别中;不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性,一般使用欧式距离

二、聚类算法分类

根据聚类颗粒度分类:细粒度和粗粒度。

根据实现方法分类:

基于划分的聚类:K-means算法->按照质心(一个簇的中心位置,通过均值计算)分类;

基于层次的聚类:DIANA(自顶向下)AGNES(自底向上);

基于密度的聚类: DBSCAN算法

......

三、Kmeans算法流程/原理

K值的含义:表示聚类个数,参数n_clusters就是指定k值的。

API:sklearn.cluster.KMeans

流程:1.事先确定常数k,即最终聚类类别数;

           2.随机选择k个样本作为初始聚类中心;

           3.计算每个样本到k个中心的距离,选择最近的聚类中心点作为标记类别;

           4.根据每个类别中的样本点,重新计算出新的聚类中心点(平均值),如果计算得出的新中心点与原中心点一样则停止聚类,否则重新进行第三步过程,直到聚类中心不在变化或者达到最大迭代次数。

四、聚类评估方法

1.SSE“肘”方法

计算簇内误差的平方和,SSE越小,聚类效果越好

SSE=\sum_{i=1}^{k}\sum_{p\epsilon C_{i}}^{}\left | p-m_{i} \right |^{2}

2.SC轮廓系数

综合考虑簇内的内聚程度与簇间的分离程度,SC越大,聚类效果越好

S=\frac{\left ( b-a \right )}{max\left ( a,b \right )}

3.CH轮廓系数

综合考虑簇内的内聚程度、簇间的分离程度、质心的个数,CH越大,聚类效果越好

http://www.lqws.cn/news/101053.html

相关文章:

  • Dify:用Celery构建高性能异步任务处理系统
  • 力扣刷题Day 69:搜索二维矩阵(74)
  • LabelMe安装踩坑
  • Numpy入门1——创建、数据类型、属性、和列表的差异
  • Rust 学习笔记:使用自定义命令扩展 Cargo
  • 转战海外 Web3 远程工作指南
  • ARM GIC V3概述
  • 无人机论文感想
  • React进阶:状态管理选择题
  • python学习(一)
  • 提升系统稳定性和可靠性的特殊线程(看门狗线程)
  • git管理github上的repository
  • STM32外部中断(EXTI)以及旋转编码器的简介
  • iOS 电子书听书功能的实现
  • Java中并发修改异常如何处理
  • React 第五十二节 Router中 useResolvedPath使用详解和注意事项示例
  • 高效易用的 MAC 版 SVN 客户端:macSvn 使用体验
  • C# winform教程(二)----button
  • 行列式详解:从定义到应用
  • C# CallerMemberName特性
  • macos常见且应该避免被覆盖的系统环境变量(避免用 USERNAME 作为你的自定义变量名)
  • 6.3 day 35
  • 【iOS】多线程基础
  • iptables常用命令
  • 014校园管理系统技术解析:构建智慧校园管理平台
  • Cursor + Claude 4:微信小程序流量主变现开发实战案例
  • 【notepad++】如何设置notepad++背景颜色?
  • 如何用 pnpm patch 给 element-plus 打补丁修复线上 bug(以 2.4.4 修复 PR#15197 为例)
  • 【学习记录】深入解析 AI 交互中的五大核心概念:Prompt、Agent、MCP、Function Calling 与 Tools
  • MyBatis实战项目测试