2信息熵的起源.doc
文本预览下载声明
信息熵在日益复杂的世界中的重要应用
高剑波1,PMB智能有限责任公司,森尼韦尔,CA94087,美国jbgao.pmb@
摘要:什么是信息?在信息爆炸时代信息熵为了回答这些问题,讨论信息熵的起源信息熵与热力学熵的信息熵在复杂性理论包括混沌理论和分形理论中信息熵可能重要。
(1)存储设备的演化从144的软盘,100M和250M的Zip,到几十GB的棒;Google books项目把过去人类出版的书籍的4%都数字化了[1-3],GDELT(Global Database of Events, Language, and Tone)项目则把全世界所有英语和非英语的新闻媒体的数据收入其中[4]。
信息熵的概念有助于理解所有这些事件的发生,尤其是应用遥感技术(特别是人造卫星)获得的地球物理数据使如今的天气预报越来越准确。
信息熵如此重要且又普遍存在,这使好奇之士不得不问,信息熵与Boltzmann(波尔兹曼)和Gibbs(吉布斯) 的热力学熵之间有什么关系?有人认为,由于热力学熵最初被发明出来是用于描述气体粒子运动的,所以要讨论信息熵和热力学熵之间的关系最好限定在非生命的和唯物论的科学范围内(如文献[5])。然而,这个策略是不可行的,因为科学和技术都在向更小或更大的尺度发展,而且世界内部的关联也愈加紧密。为了更好地解决新兴的科学、技术和环境问题,就需要讨论信息熵的起源,找出信息熵和热力学熵的关键区别,理解信息熵在复杂性理论包括混沌理论和分形理论中,;ii) 记第条讯息可能出现的概率为,满足
在概率论中,被称作是一个完备的事件系统[7]。若掷一颗骰子,则它们对应于;若抛一枚硬币,则它们对应于(正面,反面)。若骰子和硬币均匀,则得到等概率的分布,分别为和;若骰子和硬币不均匀,那么概率将取不同的值。在通信中,抛硬币相当于一个二元问题:是或否,黑或白,红或蓝,等等。当我们从通信系统
中接收一条讯息,得到的平均信息量由信息熵给出,其定义为:
(1)
依据惯例,若,则. 公式(1)有很多很好的性质,尤其是取对数,它为信息的定量化提供了一个方便的单位:当对数的底为2时,这个单位就叫做比特(bit);对于一个等概率的二元问题,如是或否、对或错,它们的概率均为0.5,则不论什么情形,信息量都刚好为1比特。比特也是任何计算机中数据存储和处理的基本单位。
如果有一个为1,其它所有均为0,那么,此时我们面对的是一个确定性系统,也就是说,在读取由该通信系统发送的讯息时将得不到任何知识。另一个极端是所有事件发生的概率均为,此时信息熵达到最大值。例如,组成一个DNA序列的四种核苷酸A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)近似于均匀分布,那么,每个碱基平均约包含2比特的信息量[8]。
应用冗余的思想,几十年的努力工作获得了很多优秀的纠错码来有效地表达通过信道传输的讯息。因此,第一个问题“如何量化和表达源信息”已经完全解决了。(MIT的著名数学家Peter Shor通过一个巧妙的方法把冗余的思想推广到量子计算,并设计了一个量子纠错系统[9]。)
第二个问题:信道容量是多少?其答案也已经由Shannon在其经典文章“A Mathematical Theory of Communication”中给出。通过应用信息熵概念的一个自然推广——互信息(mutual information),信道容量可由下面的公式精确地给出:
(2)
其中,是以赫兹为单位的信道带宽,是信噪比。互信息本质上是用来度量信道上接受的讯息与发送的讯息的比较。
虽然这里不证明公式(2),但我们还是解释一下其原理以加深对通信的理解。假设信号和噪声的功率分别为和,那么总功率为。对于模拟信号,把一个信号波划分成若干段,每段代表一条讯息。这里不得不为信道考虑最坏的情形,即所有讯息是等可能的,以致于信道在不断地传输新信息。最大可能的段数由下面的公式给出:
在这里,每条讯息由个比特来表达。如果在时间内对比特水平的讯息做次测量,那么收集到的信息的总比特数为:
信息传输率(即每单位时间传输的比特数)为:
注意到的最大可能值就是最高的实际采样率,于是得到公式(2)。
值得注意的是,当,容量并不会变为无穷大,因为噪声的功率与成正比。记,其中为每单位带宽的噪声功率,运用
,
得到
3. 经典热力学中的熵
毫无疑问,“熵”这个词最早出现在经典热力学中。经典热力学探讨整个系统的状态变量,比如气体的压力、体积和温度,其经常出现的一个数学方程是
(3)
其中,为温度时热转移的数量,是熵的变化。热力学第二定律断言,在一个封闭系统
显示全部