在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。聚类试图将数据集中的样本划分为若干个通常是不想交的子集,每个子集称为一个“簇”(cluster)。聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。其实异常检测(anomaly detection)也常借助聚类或距离计算进行,如将远离所有簇中心的样本作为异常点,获奖密度极低处的样本作为异常点。
基于不同的学习策略,人们设计出多种类型的聚类算法,主要划分及设计到的聚类算法如下:
- 原型聚类:
(1)用原型向量刻画聚类结构:
a.Kmean
b.LVQ(学习向量量化)
(2)概率模型(高斯分布):GMM(高斯混合模型 - 密度聚类(样本分布的紧密程度):DBSCAN
- 层次聚类(树形的聚类结构):
(1)“自底向上”的聚合策略:AGNES (2)“自顶向下”的分拆策略:
本文会先讨论聚类算法涉及到的两个基本问题——性能度量和距离计算,然后对上面涉及到的不同类型的聚类进行介绍。