贝叶斯决策论可以根据先验概率(可以估计)和假设类条件概率来得到最优的分类器,但估计通常存在困难,原因如下:
- 训练样本数太少(
- 特征向量的维数较大时,计算复杂
其解决方法是将条件概率密度函数参数化。即假设类条件概率密度P(x|w)是一个多元正态分布,已知均值和协方差矩阵,这样就可以从估计完全未知的类条件概率密度P(x|w)转化为估计参数均值和协方差矩阵。这也叫参数估计,最常用的方法是极大似然估计和贝叶斯参数估计。
极大似然估计是把待估计的参数看做是确定性的量,只是值未知,因此只需要求得最佳估计即可,就是使得产生已观测到的样本概率为最大值的那个值。
而贝叶斯估计是把待估计的参数看成是符合某种先验概率分布的随机变量。对比两种方法,极大似然估计更简单,样本量增大时收敛效果更好。
极大似然估计(Maximum-Likelihood Estimation,MLE)
极大似然估计是通过最大化观察样例获得的可能性来获取最好的参数。MLE比其他分析简单。
一般原则:
使用训练样例的信息来估计
根据参数的已知情况,分类讨论如下:
1. 协方差矩阵已知,均值未知
可以看出要求的均值是训练样例的平均值。
2. 当协方差矩阵和均值均未知时
考虑单变量情况:
对全体样本的对数似然函数求极值:
可得到均值和方差是:
贝叶斯估计(Bayesian Estimation)
贝叶斯估计与极大似然估计结果很相似,但本质不同。区别在于,极大似然估计需估计的向量参数(θ)是一个确定而未知的参数。而贝叶斯的θ是随机变量,已有的训练样本将对θ的初始密度估计转为后验概率密度。
贝叶斯的核心是如何计算后验概率P(w|x),可以使用贝叶斯公式。
为了强调训练样本在估计过程的重要性,用D表示训练样本的集合。
将训练样本放到C个次样本集D1,D2,…,Dc,可得到
这样就能够对每一个类别进行分别处理,即处理C个独立问题。根据确定却未知的P(X)来得到P(x|D),把联合概率密度P(x,θ|D)对θ进行积分
其中
是贝叶斯核心公式:即把类条件概率密度p(x|D)和未知参量的后验概率密度p(θ|D)联系起来。具体计算就是把对所有可能的θ求平均。在实际应用中,可用数值计算的方法进行计算,例如蒙特卡洛仿真。
贝叶斯参数估计一般理论
在多元高斯分布情况下,应用Bayes估计,即后验概率,只要未知概率分布能表示成参数形式,就可以用Bayes估计。
基本假设:
- 条件概率密度函数P(x|θ)已知,但参数θ未知
- 先验概率密度函数P()θ包含了与θ有关的知识
- 剩下有关θ的知识包含在样本x1,x2,…,xn,这些服从P(θ)
总结:如何计算P(x|D):
根据各样本独立性假设得到P(D|θ):
再根据Bayes公式得到P(θ|D):
最后再由P(θ|D)计算得到P(x|D):