系统聚类(又称层次聚类)是一种将数据对象按相似性进行分组的非监督学习方法,通过构建层次结构模型来展现数据间的相似性关系。其核心思想是通过逐步合并或分裂形成树状结构(如树状图或谱系图),从而揭示数据的内在层次。
一、基本思想
初始状态:
将每个数据对象视为独立的类或簇。
迭代合并:
计算类间距离,合并距离最近的两个类,重复此过程直至所有对象合并为一类。
层次结构:
通过合并路径形成树状结构,可直观展示数据的分层关系。
二、主要方法
自底向上法(合并法) 从每个样本自成一簇开始,逐步合并距离最近的簇,直至形成最终聚类。
自顶向下法(分裂法)
先将所有样本合并为一类,再逐步分裂成子类,最终形成层次结构。
三、优势与特点
无需预设聚类数: 通过树状图可直观确定聚类层次,避免K-均值等算法需提前指定聚类数的问题。 可分析数据在不同层次的相似性关系,适用于需要理解数据内在结构的场景。 适合数据量较小、需探索性分析或需要可视化层次结构的情况。 四、应用场景示例 学生管理展示相似性层次:
适用场景:
市场细分:对消费数据进行分层,制定针对性营销策略。
生物信息学:分析基因表达数据,揭示基因调控的层次结构。
五、与其他聚类方法的区别
与K-均值:K-均值需提前指定聚类数,且结果为扁平化结构;系统聚类通过层次结构展现数据关系。
与DBSCAN:DBSCAN基于密度进行聚类,可发现任意形状的簇;系统聚类基于距离计算,对簇形状无要求。
系统聚类通过层次结构直观展示数据相似性,适用于需要理解数据内在层次的场景,尤其在对聚类结果的解释性要求较高的情况下具有优势。