第二章:数据挖掘中的数据

一、数据的基本概念

  • 数据:由数据对象及其属性组成的集合。
  • 属性:对象的特征或性质,也称为变量、字段、特征、维度。
  • 对象:由一组属性描述,也称为记录、样本、实例、实体。

二、属性与属性值

  • 属性值:赋予属性的数值或符号。

  • 同一属性可以映射到不同的属性值(如高度可以用米或英尺表示)。

  • 不同属性可能映射到相同的值集合(如ID和年龄都是整数,但含义不同)。


三、属性的类型

  1. 名义属性:表示类别,如ID、颜色、邮编。
  2. 序数属性:有顺序,如等级、高度(高/中/低)。
  3. 区间属性:有顺序和有意义差值,如日期、摄氏温度。
  4. 比例属性:具有所有四种性质(区分、顺序、差值、比例),如开尔文温度、长度。

四、属性的性质

  • 区分性(=, ≠)
  • 顺序性(<, >)
  • 差值有意义(+, -)
  • 比例有意义(×, ÷)

五、离散与连续属性

  • 离散属性:有限或可数无限个值,如邮编、计数。
  • 连续属性:实数值,如温度、重量。

六、数据质量

  • 常见问题:
    • 噪声
    • 异常值
    • 错误数据
    • 缺失值
    • 重复数据
  • 处理方法:
    • 删除对象/属性
    • 估计缺失值
    • 忽略缺失值

七、相似性与距离度量

  • 相似性:数值越大越相似,通常在[0,1]。

  • 距离:数值越小越相似。

  • 常用度量

    • 欧几里得距离

    • 闵可夫斯基距离(包括曼哈顿、欧氏、上确界距离)

      r = 1. City block (Manhattan, taxicab, L1 norm) distance.

      r = 2. Euclidean distance

      r →∞. “supremum” (Lmax norm, L¥ norm) distance.

    • 马哈拉诺比斯距离(考虑协方差)

    • 余弦相似度(用于文档向量)

    • 简单匹配系数(SMC)与杰卡德系数(J)

    • 皮尔逊相关系数

      相关性、余弦相似度与欧氏距离比较

      • 比较三种邻近度量在变量变换下的行为:
        • 缩放:乘以一个值
        • 平移:加上一个常数
      性质 余弦相似度 相关性 欧氏距离
      对缩放不变性
      对平移不变性

八、数据预处理

  1. 聚合:合并属性或对象,减少维度,增强稳定性。
  2. 采样
    • 简单随机采样
    • 分层采样
  3. 离散化:将连续属性转换为有序类别。
    • 等方法、等频率、K均值聚类
  4. 二值化:将属性转换为一个或多个二进制变量。
  5. 属性变换:如对数、指数、标准化等。
  6. 标准化:减去均值,除以标准差。

九、维度灾难与降维

  • 维度灾难:高维数据中数据稀疏,距离和密度失去意义。
  • 降维方法
    • 主成分分析(PCA)
    • 特征选择(去除冗余或不相关特征)
    • 特征构建(如密度 = 质量/体积)
    • 特征提取(如图像边缘提取)
    • 映射到新空间(如傅里叶变换、小波分析)

十、数据集类型

  • 记录数据:固定属性集合
  • 数据矩阵:多维空间中的点
  • 文档数据:词频向量
  • 交易数据:项目集合
  • 图数据:如网页链接、分子结构
  • 有序数据:时序数据、空间数据、基因序列

十一、信息论度量

  • :衡量不确定性。

  • 互信息:衡量两个变量之间的相关性。

  • 最大信息系数(MIC):适用于连续变量,能捕捉非线性关系。


十二、选择相似性度量

  • 应根据数据类型领域知识选择。
  • 考虑对称性、抗噪性、是否支持多种模式等。