第四节 信息的量度

 

  下面介绍申农理论的另外一个组成部分,信息量的度量。和上面介绍的信息运动模式一样,这个问题也是从通讯工程中的具体问题入手进而拓展成具有普遍性的认识。

  从上述情况可以看出,就实现信息运动说来,需要有由符号、信号以及编码规则所构成的编码系统才能够实现这一要求。不过在通讯工程中,根据不同的技术条件以及对通讯质量的不同要求需要建立不同的编码系统。因此,在通讯工程中对编码系统的品质,也就是该系统承载和传输信息能力的评估则是关乎这一编码系统的效能、效率以及效益的重要问题。下面通过实例提出信道以及信道容量的概念,并在此基础上,通过分析提出显示编码系统品质的重要指标——信息量概念。



1.编码符号系统承载信息能力是不同的

  在一般液晶显示的数字信号中,通常使用“ 8 ”字形图案。这是一个由七条短线构成的图案。用这七条短线的出现或消隐可以显示出从0到9这十个阿拉伯数字的形象,从而表示出从0到9这十个自然数,也就是信息。

  从这一情况再次显示出符号与信号的区别和关系。我们在液晶显示装置上看到的的是视觉信号。这个视觉信号和用手书写的,以及使用其它字体显示的阿拉伯数字显然不同。可是我们却能把它们全都认同于阿拉伯数字。我们做出这种认同的依据只能是所约定的图案结构原则,而不会是某个具体的视觉形象。即使是使用同样的“ 8 ”字型图案,这里也有图案大小和颜色的区别,可是由于有一致认同的结构模式,这些差异并不妨碍我们对该信号所代表的信息的一致认同。

  如果要求显示一位数字,使用一个“ 8 ”字型图案即可,这个图案就是信道,只有容纳一位数字的能力,也就是具有承载0-9这十个数字(信息)的能力。如果要求显示两位数字,也就是要求承载0-99这一百(100)个数字(信息)的能力,必须再增添一个“ 8 ”字型图案,也就是扩大信道容量。如果要求显示三位数字,也就是要求承载 0-999 这一千( 1000)个数字(信息)的能力那就必须还增加一个“ 8 ”字型图案。……

  “ 8 ”字型图案编码到底是一个什么样的编码系统呢?这一图案从结构上可以看作由平面上占据七个有序位置的短线构成,短线的出现或消隐可以看作是构成图案的两个元素。依照这样方式构成的可能图案个数就相当于从两个元素取七个的可重复排列,结果应为27次方=128个图案。虽然显示出从0到9这十个阿拉伯数字的形象只要求十个图案,然而,在使用这一编码系统的情况下(“8”字型图案编码),为了实现这一要求,也只能使 128 个图案中的 118 个图案闲置,无法予以利用。尽管如此,倘若传递传递两位数字信息,必须再添置一个“8”字型图案编码图案,这时将有 2的14次方=16384个图案,而其中只有100可用,这时将有16284个图案闲置。

  从这一事例可以明显看出,两个“8”字型图案编码所传输的信息将比一个“8”字型图案编码传输的信息多。因此,两个“8”字型图案编码系统所能够携带的信息量将比一个“8”字型图案编码系统所能够携带的信息量大。不过,从上述事实也可以看出,“8”字型图案编码系统存在大量闲置图案,没有得到有效开发使用,这是一种编码资源浪费,必须设法改进。这实际上就是申农所面对的问题。对某一通讯系统使用哪种形式的编码系统最能充分开发该系统的效率,以及对某一编码系统应该设计构建哪种通讯系统才能最大程度发挥这一编码系统的效率优势都是工程设计现实中必须首先考虑并做出决定的重要问题。为了解决这一实际问题,必须解决编码系统承载信息能力量度的问题,这是处置通讯工程实际问题的先决条件。

  从这些情况可知,信道是载荷着信息的信号运动通道,具有实现交换和存贮信息的功能。从上述事例可以清楚地看出,根据“8”字型图案编码系统所能够承载数字的数目就可以对这一编码系统承载信息能力做出量度,根据该编码系统的特点分析,就能对该编码系统的品质做出评价。可是现在使用的编码系统何止“8”字型图案编码系统这一种,对诸如汉字、拉丁字母,阿拉伯数字等诸多语言文字编码系统,又如何对其承载信息能力以及品质做出恰当的量度和评估,将是更为重要的课题。申农理论就是针对处置解决这一更为复杂情况提出的。

  为了更为清晰地陈述申农处置这一情况的基本精神,我们直接从讨论汉字入手。为了突出问题,我们姑且认定常用汉字就是八千个,这就是我们编码系统的代码数目,也就是符号数目。汉语语法就是编码规则,这样就建立了一个编码系统。下面我们考虑如何对此系统承载信息的能力进行量度。

  既然常用汉字就是八千个,倘若考虑这八千个汉字到底可以构成多少能够满足人际间传递信息要求的符号组合,也就是说统计出使用这八千个汉字能够编造成多少个有意义的汉语语句的数目,并且用这个数字来表示这一编码系统的信息量应该是一种看来是言之有理的选择。不过,这种办法听起来似乎合理,然而实行起来既不可能又不全面。因为使用这八千个汉字到底能够组成多少个有意义(即能够传递信息)的符号组合是没有上限的,也就是说得不到一个确定的统计基数。因此,这是一个不可取的设想。

2.另辟蹊径的信息量度

  在处置此问题时,申农和魏弗施展他们作为数学家才能,对这个问题的处置极富于智慧和机巧。他们不去正面处置,而是变更视点,这就是把信息的接收看作是面对信息编码符号的随机事件。这就是说,要接收信息必然得到信息编码符号,只是事先不知道得到哪个符号。从这个理路出发,我们对以这一符号编码系统加以承载的信息运动就完全可以看作是能够用概率予以陈述的的随机事件。

  随机事件的特征就是不确定性(uncertainty)。作为数学家的申农把这一观念显示为数学形式,他构造出陈述随机事件不确定性的函数H ,并将其称之为信息熵。申农提出:“H的公式与与统计力学中的所谓熵的公式是一样的,式中Pi表示一个系统处在它相空间中第i个元素的概率。因此,这里的H就是玻尔兹曼著名的H定理中的H 。我们将把H=-称为概率集 P1,……,Pn的熵。”[17](以后又由其他数学家在数学理论体系上对H进行了完善)随机事件之间的差别就表现在这种不确定性的差异,也就是函数 H 的差别。[18] 就信息运动而言,在没有信息运动之前,从信宿看,信源符号编码应该是具有最大的不确定性的随机事件。在信宿从信源中获得信息,也就是获得了符号之后,这些接收到了的符号是确定的,此时就信宿而言,信源符号编码因此导致了不确定性减少,此时信源符号编码在通讯前后不确定性函数H的差值就是信宿获得的信息数量。这种对信息度量的理路不但适用于人际间的信息运动,对非人际间信息运动也同样适用。正如魏弗所说,在他们视野中编码系统是“与你说的是什么没多大关系,而与你能说什么有关”。[19]“能说”鲜明地揭示出他们处置此问题的思路。

  从这一视点看,显示给我们的符号显然是概然事件。我们能断言的只能是必定有这一编码系统的符号出现,只是事先不能对到底是哪个符号出现做出必然判断。恰恰是这种情况使我们可以对符号的出现使用概率加以陈述。由于视点变更,我们对编码系统承载信息能力的研究就能够和量化“钩挂”,尽管实现这一目标还有许多工作要做,但是申农提出的这一视点变更是实现信息量化的决定性跨越。从这个新的视点观察,信息的传递就转化成可以用概率论予以方物的符号出现的随机事件。从这里开始,数学概率论的结果都可以毫无顾忌地搬用到这一领域,从而为我们的研究工作极大拓展了活动空间,赢得更多的研究自由。

  除去信息量之外还有一个同等重要的评估编码系统品质的数量指标,这就是编码系统的冗余度(redundancy)。冗余对抗干扰十分必要。比如,在财务票据中要求将款项数目使用大写书写一次和阿拉伯数字并列。从信息编码看,这种书写纯属多余,但是对减少干扰(如书写欠清晰)确实是十分必要的。

  实际通讯中的编码通常是多重的。拉丁字母共计二十六个,英语的诸多文字就是由这二十六个字母(即符号)构成。在将文字构成语句时,编码符号除了大小写各二十六个字符之外,还要求有标点符号及空格,英语语法就是编码规则。对这一现象我们可以叫做一次编码。由于实际通讯设备的要求,我们还需要对每一个字母用二进制编码或摩斯电码进行编码,这时,就出现二次编码。

  汉字也是如此,比如用于计算机汉字录入方式之一的五笔字型就是一种编码系统。该系统把汉字构成中的偏旁、部首当做基本符号,这样就得到了一百三十个该系统的字根。此外又给出了组字规则,按照上述规则行事就能够实现汉字输入。可是,为了将就计算机键盘的普适性,于是就把该系统的一百三十个字根依据使用的频度分配到二十五个键上。在计算机内部还要结合键盘的要求对该系统的一百三十个字根进行数字编码,这样就能够通过逻辑运算完成组字功能了。照这样算来,五笔字型系统至少要经过五重编码才能够完成一个汉语语句的编码。这里我们仅仅是从现象上明确什么是编码,至于编码与信息的关系,如何用编码表示信息以及如何从编码中解读出信息等,这将是以后要深入讨论的内容。

  关于信息量、信息熵等问题,我们将在本书附录中结合热力学和统计热力学中的熵函数进行比照,并做出阐述,不赘。至此,我们已然把申农理论的基本内容进行简要介绍。

  通过以上论述使我们明确了确有、实有信息,并且其范围不限于人际间的通讯,在非人力可控制的生物现象(包括人的生命本身)和人类意志的产物——工程技术产品中也是如此。从这种意义上说,在很大领域内都有信息。从概念上说,信息、(编码)符号和信号三者完全不同,在实际信息运动中,三者必然同时出现,无法分离、割裂。这是我们从介绍申农理论所得到的认识。

  关于信息、编码符号和信号三者关系,陈嘉映在其撰写的《语言哲学》一书中提出的解释语言和语义关系的比喻也可以放到这里作为解释上述三者关系的比喻。他说:“一个足球有 32 块皮子和一个足球有表面积是两种‘具有',我们可以把足球拆成这些皮子,但我们无法把表面积拆下来。表面积只是在形式上是可分的。”[20] 编码符号和与其相对应的信号携带了信息。我们可以把信号从信号组合中拆分下来,可是却无法把信息如此拆除出来。