data mining 2
第二章:数据挖掘中的数据
一、数据的基本概念
- 数据:由数据对象及其属性组成的集合。
- 属性:对象的特征或性质,也称为变量、字段、特征、维度。
- 对象:由一组属性描述,也称为记录、样本、实例、实体。
二、属性与属性值
-
属性值:赋予属性的数值或符号。
-
同一属性可以映射到不同的属性值(如高度可以用米或英尺表示)。
-
不同属性可能映射到相同的值集合(如ID和年龄都是整数,但含义不同)。
三、属性的类型
- 名义属性:表示类别,如ID、颜色、邮编。
- 序数属性:有顺序,如等级、高度(高/中/低)。
- 区间属性:有顺序和有意义差值,如日期、摄氏温度。
- 比例属性:具有所有四种性质(区分、顺序、差值、比例),如开尔文温度、长度。
四、属性的性质
- 区分性(=, ≠)
- 顺序性(<, >)
- 差值有意义(+, -)
- 比例有意义(×, ÷)
五、离散与连续属性
- 离散属性:有限或可数无限个值,如邮编、计数。
- 连续属性:实数值,如温度、重量。
六、数据质量
- 常见问题:
- 噪声
- 异常值
- 错误数据
- 缺失值
- 重复数据
- 处理方法:
- 删除对象/属性
- 估计缺失值
- 忽略缺失值
七、相似性与距离度量
-
相似性:数值越大越相似,通常在[0,1]。
-
距离:数值越小越相似。
-
常用度量:
-
欧几里得距离
-
闵可夫斯基距离(包括曼哈顿、欧氏、上确界距离)
r = 1. City block (Manhattan, taxicab, L1 norm) distance.
r = 2. Euclidean distance
r →∞. “supremum” (Lmax norm, L¥ norm) distance.
-
马哈拉诺比斯距离(考虑协方差)
-
余弦相似度(用于文档向量)
-
简单匹配系数(SMC)与杰卡德系数(J)
-
皮尔逊相关系数
相关性、余弦相似度与欧氏距离比较
- 比较三种邻近度量在变量变换下的行为:
- 缩放:乘以一个值
- 平移:加上一个常数
性质 余弦相似度 相关性 欧氏距离 对缩放不变性 是 是 否 对平移不变性 否 是 否 - 比较三种邻近度量在变量变换下的行为:
-
八、数据预处理
- 聚合:合并属性或对象,减少维度,增强稳定性。
- 采样:
- 简单随机采样
- 分层采样
- 离散化:将连续属性转换为有序类别。
- 等方法、等频率、K均值聚类
- 二值化:将属性转换为一个或多个二进制变量。
- 属性变换:如对数、指数、标准化等。
- 标准化:减去均值,除以标准差。
九、维度灾难与降维
- 维度灾难:高维数据中数据稀疏,距离和密度失去意义。
- 降维方法:
- 主成分分析(PCA)
- 特征选择(去除冗余或不相关特征)
- 特征构建(如密度 = 质量/体积)
- 特征提取(如图像边缘提取)
- 映射到新空间(如傅里叶变换、小波分析)
十、数据集类型
- 记录数据:固定属性集合
- 数据矩阵:多维空间中的点
- 文档数据:词频向量
- 交易数据:项目集合
- 图数据:如网页链接、分子结构
- 有序数据:时序数据、空间数据、基因序列
十一、信息论度量
-
熵:衡量不确定性。
-
互信息:衡量两个变量之间的相关性。
-
最大信息系数(MIC):适用于连续变量,能捕捉非线性关系。
十二、选择相似性度量
- 应根据数据类型和领域知识选择。
- 考虑对称性、抗噪性、是否支持多种模式等。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 笺札!










