信息的数学理论是基于概率论和统计的基础上的,并用多种信息量度信息。以下公式中对数底数的选择确定了使用的信息熵的单位。信息最常用的单位是位的基础上,以2为底的对数。其他单位包括基于自然对数的nat和基于10或普通对数的hartley。
在下面的形式的表达 , 按照惯例当p等于零时被认为等于零。这是有道理的,因为易于任意对数基数而言,都成立。
香农衍生的信息内容的度量被称为自信息或“surprisal”消息的 m:
假设m是一个离散型随机变量,其取值集合为M,概率分布函数, 则定义时间的信息量为:
信息量函数的曲线是下面这个样子:

当为1时,表示确定发生,信息量为0。 当趋近于0时,为无穷大。当时,。 p(m_0)因为是概率,因此其取值只能在[0-1
]区间。
此外对数的底数仅影响比例因子,并因此影响表示测量的信息内容的单位。如果对数为2,则信息量度以位为单位表示。
仅当信息的接收者还没有开始时,信息才从源转移到接收者。传达肯定会发生并且收件人已知道的信息的消息不包含真实信息。较不频繁出现的消息比较频繁出现的消息包含更多的信息。上述事实反映在上述等式中-某条消息(即概率为1)的信息度量为零。另外,两个(或多个)不相关(或相互独立)消息的复合消息将具有一定数量的信息,该信息量是每个消息的信息量度之和。这个事实也反映在上面的等式中,支持其推导的有效性。
例如:天气预报广播是:“今晚的预报:黑暗。持续不断的黑暗,直到早晨广泛散射的光线。” 该消息几乎不包含任何信息。但是,暴风雪的预报肯定会包含信息,因为并非每天晚上都会发生。对于诸如迈阿密之类的温暖地区,准确的降雪预报将提供更多信息。对于一个从不下雪的位置(不可能发生的事件)的雪情预测,其信息量最高(无穷大)。
容易令人误解的信息图,显示了有关变量的香农基本信息量之间的加减关系 和 。两个圆圈所包含的区域是联合熵 。左边的圆圈(红色和紫色)是单个熵 ,红色是条件熵 。右边的圆圈(蓝色和紫色)是,蓝色是 。紫罗兰是相互信息。
【参考】