基本概念

定义:确定对象属于哪个预定义的目标类
输入数据:分类任务的数据是记录的集合
记录:实例或样例,用元组(x,y)表示;x是属性的集合,y则是一个特殊的属性,指出样例的类标号
区别分类与回归的关键特征: 类标号必须为离散属性
分类任务:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y
目标函数(分类模型)可用于以下目的:
1.描述性建模
2.预测性建模

分类技术

定义:根据输入数据集建立分类模型的系统方法
例子:决策树分类法、基于规则的分类法、神经网络、支持向量机、朴素贝叶斯分类法
一般方法:
首先,需要一个训练集,由类标号已知的记录组成
然后,使用训练集建立分类模型
最后,分类模型随后将运用于检验集(检验集有类标号未知的记录组成)
分类模型的性能:
评判:根据模型正确和错误预测的检验记录计数(存放于混淆矩阵的表格中)进行评估
性能度量:

1.准确率=正确预测数/预测总数=f11+f00/(f11+f10+f01+f00) 1.准确率 =正确预测数/预测总数=f11+f00/(f11+f10+f01+f00)

2.错误率:错误预测数/预测总数=f10+f01/(f11+f10+f01+f00)2.错误率:错误预测数/预测总数=f10+f01/(f11+f10+f01+f00)