Contents
在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。聚类试图将数据集中的样本划分为若干个通常是不想交的子集,每个子集称为一个“簇”(cluster)。聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。其实异常检测(anomaly detection)也常借助聚类或距离计算进行,如将远离所有簇中心的样本作为异常点,获奖密度极低处的样本作为异常点。
基于不同的学习策略,人们设计出多种类型的聚类算法,主要划分及设计到的聚类算法如下:
- 原型聚类:
(1)用原型向量刻画聚类结构:
a.Kmean
b.LVQ(学习向量量化)
(2)概率模型(高斯分布):GMM(高斯混合模型 - 密度聚类(样本分布的紧密程度):DBSCAN
- 层次聚类(树形的聚类结构):
(1)“自底向上”的聚合策略:AGNES (2)“自顶向下”的分拆策略:
本文会先讨论聚类算法涉及到的两个基本问题——性能度量和距离计算,然后对上面涉及到的不同类型的聚类进行介绍。性能度量
通常我们希望聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index);另一类是直接考查聚类结果而不利于任何参考模型。称为“内部指标”(internal index)外部指标
基于上式导出常用的聚类性能度量外部指标:
1. Jaccard系数(Jaccard Coefficient,JC)
2. FM指数(Fowlkes and Mallows Index,FMI)
3. Rand指数(Rand Index,RI)
上述三值均在[0,1]区间,值越大越好。内部指标
簇C内样本间的平均距离:
簇C内样本间最远距离:
簇Ci与Cj最近样本件的距离
簇Ci与Cj中心点间的距离:
基于上式可导出常用的聚类性能度量内部指标:
1. DB指数(Davies-Bouldin Index,DBI)
类比簇间相似度
2. Dunn指数(Dunn Index,DI)
类比簇内相似度
DBI的值越小越好,DI相反,越大越好距离计算
“距离度量”需满足一些基本性质:非负性、同一性、对称性、直递性(i到j的距离小于等于i到k与k到j的距离之和)。
最常用的是“闵可夫斯基距离”(Minkowski distance)
p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance)
p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance)
我们常将属性划分为“连续属性”(continuous attribute)(数值属性)和“离散属性”(categorical attribute)(列名属性)。但在讨论距离计算时,属性上是否定义了“序”关系更为重要。能直接在属性值上计算距离的称为“有序属性”,不能直接在属性值上计算距离的称为“无序属性”。显然,闵可夫斯基距离可用于有序属性。
对无序属性可采用VDM(Value Difference Metric)。令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:
将闵可夫斯基距离和VDM结合可处理混合属性。不失一般性,令有序属性排列在无序属性之前,则
当样本空间中不同属性的重要性不同时,可使用“加权距离”,以加权闵可夫斯基距离为例:通常权值之和为1。原型聚类
原型聚类亦称“基于原型的聚类”(prototype-based clustering)。此类算法假设聚类结构能通过一组原型刻画。原型是指样本空间中具有代表性的点。下面介绍几种著名的原型聚类算法。KMeans(k均值算法)
给定样本集D={x1,x2,…,xm},“k均值”(k-means)算法针对聚类所得簇划分C={C1,C2,…,Ck}最小化平方误差
最小化式(9.24)并不容易,找到它的最优解需考察样本集D所有可能的簇划分,这是一个NP难问题。k均值算法采用了贪心策略,通过迭代优化来近似求解式。以下是k均值算法描述
为避免运行时间过长,通常设置一个最大运行轮数或最小调整幅度阈值,若达到最大轮数或调整幅度小于阈值,则停止运行。学习向量量化
与k均值算法类似,“学习向量量化”(Learning Vector Quantization,LVQ)也是试图找到一组原型向量来刻画聚类结构,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。LVQ算法描述如下:
首先对原型向量进行初始化,然后对原型向量进行迭代优化,在每一轮迭代中,算法随机选取一个有标记训练样本,找出与其距离最近的原型向量,并根据两者的类别标记是否一致来对原型向量进行更新。LVQ的关键是第6-10行的更新原型向量,对样本Xj,若最近的原型向量pi与Xj的类别标记相同,则令pi向Xj的方向靠。若标签不同,则远离Xj。
在学得一组原型向量后,即可实现对样本空间X的簇划分。对任意样本x,它将被划入于其距离最近的原型向量所代表的簇中;高斯混合聚类(Mixture-of-Gaussian)
与k均值、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型。
高斯分布的定义,对n维样本空间X中的随机向量x,若x服从高斯分布,其概率密度函数为
高斯分布完全由均值向量和协方差矩阵这两个参数确定。
根据概率密度函数可定义高斯混合分布:
该分布共由k个混合成分组成,每个混合成分对应一个高斯分布。假设样本的生成过程由高斯混合分布给出。令随机变量Zj∈{1,2,…,k}表示生成样本Xj的高斯混合成分,根据贝叶斯定理,Zj的后验分布对应于:
换言之,PM(Zj=i|Xj)给出了样本Xj由第i个高斯混合成分生成的后验概率,为方便叙述,将其简记为γji(i=1,2,…,k)。当高斯混合分布(9.29)已知时,高斯混合聚类将把样本集D划分为k个簇C={C1,C2,…,Ck},每个样本Xj的簇标记λj如下确定:
即将样本划分进后验概率最大的那个高斯混合成分。因此,从原型聚类的角度来看,高斯混合聚类是采用概率模型(高斯分布)对原型进行刻画,簇划分则由原型对应后验概率确定。对于式(9.29)模型参数{(αi,μi,Σi)|1≤i≤k}如何求解呢?可以采用极大似然估计,即最大化(对数)似然(这块知识的具体介绍可查看贝叶斯决策理论部分)
LL(D)是对数似然的期望值。上式常采用EM算法进行迭代优化求解。EM算法步骤在此简要复习一下:
EM(Expectation-Maximization)算法是常用的估计参数隐变量(隐变量:未观测变量的学名)的利器,它是一种迭代式地方法,基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便地对参数θ做极大似然估计(M步)。EM算法可看作是一种非梯度优化方法(坐标下降法)。
简要来说,EM算法使用E步和M步交替计算:
E步(期望E步):利用当前估计的参数计算对数似然的期望值
M步(最大化M步):寻找能使E步产生的似然期望最大化的参数值
重复E步、M步直至收敛。
根据上述的EM算法步骤可得高斯混合模型的EM算法:在每步迭代中,先根据当前参数来计算每个样本属于每个高斯成分的后验概率(E步),再根据更新公式更新模型参数,包括均值向量、协方差矩阵以及新混合系数。具体高斯混合聚类算法步骤如下:密度聚类
密度聚类亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。
DBSCAN是一种著名的密度聚类算法,它基于一组“领域”(neighborhood)参数来刻画样本分布的紧密程度,给定数据集D,定义如下几个概念:
下图是上述概念的直观显示:
ps: - 密度直达关系不满足对称性,因为Xj不一定是另一个e-领域中的核心对象。
- 密度可达关系满足直递性,但不满足对称性。
- 密度直达、密度可达、密度相连,这三者的紧密性依次递减。
基于这些概念,DBSCAN将“簇”定义为:由密度可达关系导出的最大的密度相连样本集合。形式化地说,给定领域参数(ε,MinPts),簇C∈D满足以下性质的非空样本子集:
连接性(connectivity):Xi∈C,xj∈C => Xi与Xj密度相连 (9.39)
最大性:Xi∈C,Xj由Xi密度可达 => Xj∈C
于是,DBSCAN算法先任选数据集中的一个核心对象为“种子”(seed),再由此出发确定相应地聚类簇,算法描述如图9.9所示。在第1~7行中,算法先根据给定的领域参数找出所有核心对象;然后再第10~24行中,以任一核心对象为出发点,找出由其密度可达的样本生成聚类簇,直到所有核心对象均被访问过为止。第23行是若该核心对象包含在其他聚类簇中,则从核心对象集合中去除。
层次聚类
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。
AGNES是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数,这里的关键是如何计算聚类簇之间的距离。可根据如下式子计算距离:
显然,最小距离由两个簇的最近样本决定,最大距离由两个簇的最远样本决定,而平均距离则有两个簇的所有样本共同决定。当聚类簇距离分别由这三个距离计算时,AGNES算法被相应地称为“单链接”(single-linkage)、“全链接”(complete-linkage)或“均链接”(average-linkage)算法。AGNES算法描述如下: