贝叶斯定理

p(XY)=p(YX)p(X)p(Y)p(X|Y)= {p(Y|X)p(X)\over p(Y)}

贝叶斯在分类中的应用

X 为属性集,Y表示类变量。如果类变量和属性之间的关系不确定,那么我们可以把XY看作随机变量,用p(Y|X)以概率的方式捕捉两者之间的关系。这个条件概率又称为Y的后验概率,与之相对的,p(Y)称为Y的先验概率
在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(Y|X)。知道这些概率后,通过找出使后验概率P(Y’|X‘)最大的类Y’可以对测试记录X’进行分类。

朴素贝叶斯分类器

给定类标号y,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。条件独立假设可形式化地表述如下:

P(XY=y)=i=1dP(XiY=y)P(X|Y=y)=\prod_{i=1}^d{P(X_i|Y=y)}

其中每个属性集X=X1,X2,...,Xd包含d个属性其中每个属性集X={X_1,X_2,...,X_d}包含d个属性

1.条件独立性

条件独立概念

设X,Y,Z表示三个随机变量的集合。给定的Z,X条件独立于Y,如果下面条件成立:

P(XY,Z)=P(XZ)P(X|Y,Z)=P(X|Z)

2.朴素贝叶斯分类器如何工作

分类测试记录时,朴素贝叶斯分类器对每个类 Y计算后验概率:

P(YX)=P(Y)i=1dP(XiY)P(X)P(Y|X)={P(Y)\prod_{i=1}^d{P(X_i|Y)}\over P(X)}

由于对所有Y,P(x)时固定的,因此只要找出使分子 P(Y)i=1dP(XiY)P(Y)\prod_{i=1}^d{P(X_i|Y)}最大的的类就足够了

3.估计分类属性的概率

对分类属性XiX_i,根据类y中属性值等于xix_i的训练实例的比例来估计条件概率P(Xi=xiY=y)P(X_i=x_i|Y=y).

4.估计连续属性的条件概率

朴素贝叶斯分类器使用两种方法估计连续属性的类条件概率

1.离散化

可以把每一个连续的属性离散化,然后用相应的离散区间替换连续属性值

2.概率分布

假设连续变量服从某种概率分布,然后用训练数据估计分布的参数

5.条件概率的m估计

潜在问题

如果有一个属性的类条件概率为0,则整个类的后验概率就为0

解决方法

使用m估计方法来估计条件概率:

P(xiyj)=nc+mpn+mP(x_i|y_j)= {n_c+mp\over n+m}

其中,n是类yjy_j中的实例总数,ncn_c是类yjy_j的训练样例中取值xix_i的样例数,m是称为等价样本大小的参数,而p是用户指定的参数。