机器学习系列—3.贝叶斯决策理论

Contents

  1. 1. 贝叶斯决策规则
    1. 1.1. 针对二分类
    2. 1.2. 针对多分类
    3. 1.3. 最小化总风险
    4. 1.4. 最小误差分类
  2. 2. 分类器、判别函数及判定面
  3. 3. 误差概率和误差积分
  4. 4. 朴素贝叶斯NaiveBayes
    1. 4.1. 定义
    2. 4.2. 计算类条件概率密度
    3. 4.3. 总结
  5. 5. 贝叶斯决策论总结

贝叶斯决策论事解决模式分类问题的一种基本统计途径,其出发点是利用概率的不同分类决策与相应的决策代价之间的定量折中,它做出了如下的假设,即决策问题可以用概率的形式来描述,并且假设所有有关的概率结构均已知。本文主要是学习Pattern Classify的第2章后的笔记总结,若有错误,望指出。


贝叶斯决策规则

针对二分类

首先需要知道三个概念:

  1. 先验概率,即为w的概率:P(w)
    先验概率有如下特点:(1)随机;(2)反映先前认识;(3)P(w1)=P(w2),且P(w1)+P(w2)=1,(二分类情况)
  2. 类条件概率密度:P(x|w)
  3. 处于类别Wj并具有特征值x的模式的联合概率密度
    P(Wj,x)=P(Wj|x)P(x)=P(x|Wj)P(Wj)

根据贝叶斯公式:(如下式所示:),求得后验概率(P(w|x))
贝叶斯公式

likelihood:似然;prior:先验概率;Evidence:证据因子。
由贝叶斯公式可以推出

最小化误差概率条件下的贝叶斯决策规则

针对多分类

将上述针对二分类的贝叶斯决策规则正式化,即多于两种类别:

根据贝叶斯公式可以得到后验概率:其中x是一个2维以上的向量

证据因子 Evidence:

最小化总风险

与行为相关联的损失为条件风险(conditional risk)
贝叶斯决策过程:提供了一个总风险的优化过程,以最小化总风险来替代先验概率。
贝叶斯决策规则:为了最小化总风险,对所有i=1,…,a计算条件风险

并选择行为使条件风险最小化,最小化后的总风险值称为贝叶斯风险记为R*,即最优结果。
对于二分类:

所以Conditional risk:

判别形式有两种:
第一种:

第二种:

判别形式(2)主要依赖于x的概率密度,作为w的函数可构成“似然比”:,

所以贝叶斯规则可转换为:如果似然比超过某个不依赖观测值x的阈值,那么可判决为w

最小误差分类

对称损失、0-1损失函数:

因为误判是等代价的,所以损失函数对应的风险是平均误差概率。其中行为ai通常解释为类别状态被判决为wi。
因为条件风险的公式如下:


分类器、判别函数及判定面

有很多种方式来表述模式分类器,其中用的最多的是一种判别函数的形式如下:

这里的分类器可定义为计算c个判别函数并选取与最大判别值对应的网络,如下图所示:

对于贝叶斯分类器来说,其判别函数是什么呢?

  1. 可以是最小化条件风险:

    (注意!是判别函数最大值对应最小的条件风险)
  2. 可以是最大化后验概率。
    最小误差概率情况下,我们可以得到:

    还可以推出:

    (判别函数最大值对应最大后验概率)

综上所述:判别函数的选择是不唯一的。但究其根本,其判别规则是相同的。
判决规则:将特制空间分成c个判决区域(由判决边界分割,通常是使判别函数值最大的曲面),R1,R2,…,Rc。

对于简单的两类情况(二分分类器):
定义一个简单的判别函数:

目前为止,基于贝叶斯框架,如果我们已经知道先验概率,类条件概率密度,我们可以设计一个简单的分类器。但是实际情况是,基于一个被标记过的训练数据集,我们可以假设先验概率已知(可以从训练数据中估计得到),但是我们无法估计到类条件概率密度,特别是特征空间特别大的时候。
因此我们需要使用参数估计的方法,参数估计的方法大体有2种,极大似然估计和贝叶斯估计,具体这两种估计方法见另一篇博文( “机器学习系列—4-参数估计方法-最大似然估计和贝叶斯参数估计”),此处主要是证明用这两种参数估计方法得到的类条件概率密度结果是一样的。
在使用参数估计方法估计类条件概率密度之前,我们需要一个前提,就是类条件概率密度这个参数模型是可以计算得到的。常态下的类条件概率密度可以由两个参数描述而得。即:

  1. 对于单变量密度函数
  2. 对于多元密度函数(d元,由d+d(d+1)/2各参数决定):

综上所述:由



可以推出贝叶斯分类器在正太分布下的判别函数

对上述判别函数进行讨论:
第一种情况:

这种情况表明各特征统计独立,并具有相同的方差。此时协方差矩阵式对角矩阵。几何上,样本落于相等大小的超球体聚类中。

使用线性判别函数的分类器也称为线性及其,其判定面是一些超平面,这些超平面可由能够获得最大后验概率的线性方程(下式)来确定。



即X0位于两中心的中点,超平面垂直平分两中心的连线。
如果P(wi)不等于P(wj),则X0远离可能的均值。
综上所述:若所有c类的先验概率P(wi)已知且相等,那么lnP(wi)项为可忽略的附加常量,此时的最优判决规则如下:将某特征向量X归类,通过测量每一个X到c个均值向量的欧式距离,并将x归为离他最近的哪一类中。这种分类器也称为”最小距离分类器“,KNN最近邻算法可用到此方法。

第二种情况:

该情况表明所有类的协方差矩阵都相等,但各自的均值向量是任意的,几何上,样本落于相同大小和相同形状的超椭球求聚类中。

若C类别的先验概率P(wi)相等,那么lnP(wi)可省,最优判决规则为:将向量X归类,计算从X到每一个C均值向量的平方马氏距离:

将X归于离他最近的均值所属类,与Case1相同:不相等的P(wi)会将判定面移向远离先验概率较大的类的一边。
根据以下推导:

令gi(x)=gj(x)可以得到X0的值。其中若P(wi)相等,判定面与均值连线交于其中点X0出,但不垂直;若P(wi)不相等,最优边界超平面将远离可能性较大的均值。

第三种情况:

在一般的多元正态分布情况下,其判定函数也是二次型,

其中

所以:

即当在两类问题中的时候,其判定面是超二次曲面


误差概率和误差积分

针对二分类器:误差概率为:

相等P(wi)下,若判决边界定于相等后验概率点XB处,可去误差区将消失,可使误差区域减到最小。


朴素贝叶斯NaiveBayes

定义


朴素贝叶斯之所以称之为朴素,即该算法简化了一些条件,以便于贝叶斯决策理论更好地计算、其朴素之处就是假设各特征之间是相互独立的,则

计算类条件概率密度

对于特征值为连续值的特征,计算P(X1|w)的方法:

  1. 将值离散化
  2. 用一个临界值分割:(xv)
  3. 使用概率密度函数:
    a.设想参数服从正太分布; b.使用数据计算分布的参数,例如均值、方差
    c.一旦已知概率分布,就可以使用概率密度函数计算

    总结

    对于朴素贝叶斯
  4. 一定要删除噪声点
  5. 在概率估计计算过程中,可以通过忽视这个实例来处理缺失值
  6. 确保属性之间是不相干的

贝叶斯决策论总结

  1. 基本思想:为最小化总风险,总是选择那些能够最小化条件风险的行为。
  2. 为了最小化分类问题中的误差概率,总是选择那些使后验概率P(w|x)最大的类别。
  3. 贝叶斯公式允许通过先验概率P(w)和条件密度P(X1|w)来计算后验概率

Bayesion的缺点:

  1. 仅仅只作一次判决会引起许多问题
  2. 没有一种合理的方式来确定先验概率值
  3. 最致命的缺点是计算条件密度函数的困难