贝叶斯分类法
贝叶斯定理
贝叶斯在分类中的应用
设X 为属性集,Y表示类变量。如果类变量和属性之间的关系不确定,那么我们可以把X和Y看作随机变量,用p(Y|X)以概率的方式捕捉两者之间的关系。这个条件概率又称为Y的后验概率,与之相对的,p(Y)称为Y的先验概率
在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(Y|X)。知道这些概率后,通过找出使后验概率P(Y’|X‘)最大的类Y’可以对测试记录X’进行分类。
朴素贝叶斯分类器
给定类标号y,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。条件独立假设可形式化地表述如下:
1.条件独立性
条件独立概念
设X,Y,Z表示三个随机变量的集合。给定的Z,X条件独立于Y,如果下面条件成立:
2.朴素贝叶斯分类器如何工作
分类测试记录时,朴素贝叶斯分类器对每个类 Y计算后验概率:
由于对所有Y,P(x)时固定的,因此只要找出使分子 最大的的类就足够了
3.估计分类属性的概率
对分类属性,根据类y中属性值等于的训练实例的比例来估计条件概率.
4.估计连续属性的条件概率
朴素贝叶斯分类器使用两种方法估计连续属性的类条件概率
1.离散化
可以把每一个连续的属性离散化,然后用相应的离散区间替换连续属性值
2.概率分布
假设连续变量服从某种概率分布,然后用训练数据估计分布的参数
5.条件概率的m估计
潜在问题
如果有一个属性的类条件概率为0,则整个类的后验概率就为0
解决方法
使用m估计方法来估计条件概率:
其中,n是类中的实例总数,是类的训练样例中取值的样例数,m是称为等价样本大小的参数,而p是用户指定的参数。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 笺札!










