从信息论看生活问题
——论自信息、熵和生活的密切联系
电子11-2班 201102031041
【前言】
在我看来,《信息理论与编码》是一门十分重要的课程,虽然它所占的课时比较的少,但它却与我们大学阶段的其他重要课程有着密切的联系,例如《概率论》、《通信原理》等。在学这门课的学习之初,我对这门课到底学的是什么,为什么要学它存在着许多的疑问。百度百科上对信息论是这么定义的:信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。起初,我对信息熵、数据压缩等这一类名词十分的陌生,自然也不能正确的认识这门学科。而现在经过一个学期的理论学习,我对信息论有了一定的认识,虽然还未达到深入研究的状态,但我已经认识到了《信息理论与编码》这门课它本身的重要性,以及它的理论知识在当今的这个信息时代中在各个领域中起着举足轻重的作用。同时信息理论的方法,在科学、工程以及数学理论方面也得到了大量的应用。因此,我们不应该把期末考试当作学习的终点,我们不仅要学好信息论相关课程的专业知识,还应该把其中的思想应用于生活实践中, 解决生活中的实际问题。由于掌握的信息论知识还不够全面,通过翻阅书籍,查找资料,参考资料写下了此篇文章。以下,正是我对信息论与我们生活学习中比较密切方面的应用的浅薄认识,。
【正文】
自信息
自信息量:收到信源发出的某个符号后,观察者所获得的信息量。
符号xi 的自信息量定义为
P(ai)的概率越大,不确定性就越小;反之,符号出现的概率越小,不确定度就越大,一旦出现,接收者获得的信息量就越大。总之,符号出现的概率与信息量是单调递减的关系。就比如,明天太阳从西边升起,它是必然发生的,它所包含的信息量为0,这个事件所提供的信息就不存在任何的价值。
而利用小概率事件包含的信息量很大的这个特点,在我们的生活中有一个非常常见的例子,就是新闻报道。每天,在我们身边都会发生许许多多的事情,有小事,有大事,有每天都在发生的事情,有一些意想不到的新奇的是事情,而记者们每天都会在每天发生的事情中,筛选出一些重大或者新奇的事情,来进行报道,来吸引读者或者观众的注意,而这其中又有一些新闻会成为头版头条的。而我认为,其中一个来衡量一个新闻报道是否能成为头版头条的因素就是这件事情所包含的信息量,记者们会选择发生概率小,包含的信息量大的事件来进行报道,而读者观众也会选择浏览或者观看这些信息量大的新闻。
正如前一段事件的马航MH370事件,它引起了全世界的关注。从2014年3月8日凌晨2点40分,马来西亚航空公司称与一架载有239人的波音777-200飞机与管制中心失去联系,到3月24日晚10点,马来西亚总理纳吉布在吉隆坡宣布,通过技术分析马航失联航班MH370在南印度洋坠毁,在这十多天的时间里,马航MH370事件几乎抢占了所有的头版头条,各个报道底下的留言数也在上万条以上。而至今,MH370还给我们留下了许多未解之谜。那么,为什么马航事件能引起这么大的关注呢,除了它的伤亡人数引起人们的揪心,还有一个原因就是它是一个发生概率极其小的事件,包含的信息量极大的事件。首先,据统计飞机失事造成多人伤亡的事故率约为三百万分之一,它的包含的信息量很大,而在这些事故中像马航MH370这样特殊的离奇失踪事件在历史上发生的次数更是少之又少,发生的概率基本接近于零。2009年一架法航客机大西洋上空离奇失踪,直到了2012年,法国当局才声称,冰晶破坏了用于确定飞机空速的系统,导致自动驾驶仪断开,机坠入了大西洋。1979年一架载有6人的波音707飞机在从日本起飞后失踪。1990年一架从冰岛雷克雅维克起飞的波音727飞机发出遇险信息并消失,机上载有18人,这两架飞机均未找到。这些事件都和马航MH370事件一样属于极小概率的事件,发生的概率接近于0,包含的信息量也就接近于无穷在,自然在各自的年代引起了巨大的轰动。
信源的熵
把信源的平均不确定度称为信源的熵,即H(X)表示信源中每个符号的平均信息量。熵有三种物理含义:(1)信源输出前,信源的平均不确定度(2)信源输出后,每个离散消息所提供的平均信息量(3)反映了变量X的随机性。熵还有三种性质:对称性、确定性、非负性。
有以下几个和生活相关的应用信源的熵解决生活问题的实例。
再举个曹雪虹课本上的例子,电视屏上约有 500 × 600= 3×105个格点,按每点有 10个不同的灰度等级考虑,则共能组成 个不同的画面。按等概率计算,平均每个画面可提供的信息量为:
=3 × 105 × 3.32 比特/画面
另外有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文的总篇数为N=100001000
=104000 篇,仍按等概率计算,平均每篇千字文可提供的信息量为
H(X) =log2N=4 × 103 × 3.32 ≈ 1.3 × 104 比特/千字文
由这两个例子我们得出“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。这个例子,也让我想到一个生活中很普遍的问题,当今社会,为什么那么多人喜欢看电视,却不喜欢花时间去看书,去看报纸呢?这其中的一个原因正是以上计算中所得出的结论:一个电视画面提供的平均信息量远远超过文章所提供的信息量。在如今这个科技发达的时代,人们的生活多姿多彩,很少有人能腾出时间坐在静心的看书,大多数人都会选择在相同的时间接受一些平均信息量大的事物,就比如看电视,这正是信源熵在日常生活中的一个很好的体现。