香农熵
如果说群组测试是一种“工程方法”,那么香农熵就是支撑其背后的“物理定律”之一(在信息论中)。
香农熵
香农熵,由克劳德·香农在1948年的划时代论文《通信的数学理论》中提出,是信息论的基石。它从根本上量化了“信息”、“不确定性”和“随机性”。
核心思想与定义
你可以把香农熵想象成**“意料之外”的平均程度**。
- 一个必然发生的事情(概率为1) 告诉你时,你不会感到任何“意外”,它提供零信息。
- 一个极不可能发生的事情(概率接近0) 发生时,你会感到巨大的“意外”,它提供了大量信息。
香农熵公式(对于离散随机变量X):
其中:
*是事件发生的概率。
- 对数的底数通常为2,此时熵的单位是比特。
直观理解与例子
假设你有一枚硬币:
-
均匀硬币(公平):
- 正面概率,反面概率。
- 熵:比特。
- 解读:这是不确定性最大的情况。每次抛掷前,你完全无法预测结果,结果是“最意外的”。要确定一次抛掷的结果,正好需要1比特的信息(是/否)。
-
作弊硬币(一面极重):
- 正面概率,反面概率。
- 熵:比特。
- 解读:不确定性很小。你几乎可以肯定结果是正面,所以当正面出现时,你几乎不感到意外(提供很少信息)。只有当极小的反面出现时,才会带来巨大“意外”(信息)。
关键结论:熵在概率均匀分布时最大,在分布极端(某个事件概率为1)时最小(为0)。它衡量了系统的混乱度或不确定性。
在计算机科学中的核心应用
-
数据压缩的极限(无损压缩):
- 香农源编码定理指出:对于一个熵为的信源,对其进行无损压缩,平均码长的理论下限就是比特/符号。
- 例子:一篇英文文本的熵大约是1.5比特/字母,而ASCII码用了8比特/字母,因此存在巨大的压缩空间(如ZIP压缩就是利用了这个冗余)。
-
通信信道的容量:
- 熵与互信息、信道容量结合,定义了在特定噪声信道中,可靠传输数据的最大速率(单位:比特/秒)。这是现代所有通信系统(Wi-Fi, 5G)设计的理论基础。
-
机器学习与数据科学:
- 决策树:在构建决策树时,常用信息增益(即父节点熵与子节点加权平均熵的差值)来选择最佳分割属性,目的是快速降低系统的不确定性。
- 特征选择:熵可以用来评估特征的重要性。
-
密码学:
- 加密密钥的熵衡量了其“不可预测性”。高熵是强密码的必备条件。一个低熵的密码(如“123456”)极易被暴力破解。
香农熵与群组测试的联系
群组测试和香农熵看似不同,但在信息论视角下紧密相连:
-
问题的信息量:
- 在群组测试中,我们的目标是找出个样本中的个缺陷品。整个系统的初始香农熵就是“哪个集合是缺陷集?”这个问题的信息量。
- 如果缺陷品是随机分布的,这个熵值约为比特。这告诉我们,要完全确定缺陷集,至少需要获取这么多比特的信息。
-
每次测试的信息获取:
- 每次群组测试(是/否的结果)最多提供 1 比特的信息(如果测试设计得完全随机且均匀)。
- 因此,任何自适应群组测试方案所需的最少测试次数,其理论下界就是系统的总熵(比特),即。这从信息论角度证明了为什么二分搜索等算法是接近最优的。
-
非自适应测试的设计:
- 设计一个好的测试矩阵,本质上就是让每次测试的“是/否”结果(即1比特信息)尽可能多地、不重叠地揭示样本的状态信息。
- 这类似于设计一种高效的“编码”方案,将样本的缺陷状态编码到测试结果中,而解码过程就是从这些比特中恢复原始信息。香农的整个信息论框架正是关于如何高效、可靠地编码和解码。
总结
| 特性 | 群组测试 | 香农熵 |
|---|---|---|
| 本质 | 一种具体的算法/策略,用于高效识别稀疏的异常个体。 | 一个基本的数学度量,用于量化信息、不确定性或随机性。 |
| 目标 | 最小化检测次数。 | 度量一个系统所蕴含或所需的信息量。 |
| 关系 | 香农熵为群组测试的性能提供了理论极限和衡量尺度。一个有效的群组测试方案,就是在尽可能少的步骤(每次提供有限比特信息)内,消除掉系统初始的熵(不确定性)。 |
简而言之,香农熵是“信息”的尺子,它告诉我们在理想情况下解决一个问题需要多少“信息原料”。而群组测试则是利用稀疏性等先验知识,设计出的高效“信息采集流水线”。两者结合,构成了现代高效计算和通信的核心思想之一。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 笺札!





