永发信息网

香农熵的计算

答案:1  悬赏:50  手机版
解决时间 2021-03-18 03:33
香农熵的计算
最佳答案
有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。

我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
对对子独木桥对
湘水足浴总店地址有知道的么?有点事想过去
中国居民结婚证里背景图案是什么花?
身份证复印件被不法分子获取后有什么补救办法
上海达内的招聘面试是真的还是假的,别弄去上
洗手间脸盆内放水时往上冒刺鼻的气味,为什么
坐火车从河南南阳市到黑龙江省佳木斯市的最佳
吴堡县公安局我想知道这个在什么地方
有哪两位唐朝皇帝在成都建都呢
喝羊奶可以吃洋葱和花生吗
戴助听器可以参加报考警察或者辅警吗
一枝秀可可抓饭这个地址在什么地方,我要处理
花椒直播怎么给主播漂瓶
奇迹暖暖大喵指引最多可以添加多少套装
窗帘最溥的滑道是多厚?
推荐资讯
石古门地址有知道的么?有点事想过去
winUCRD.wim是干什么的
狗狗感冒咳嗽不吃饭怎么办,吃什么药
张嘴说话,露出满口白牙,猜一字
有一首歌歌词有一句是听我唱这首歌我愿用生命
有5元2元1元各4张,买一瓶水6元无零头有3种方
老于川湘菜馆地址在哪,我要去那里办事
数字0517代表什么意思
工作时间一定,工作效率和工作总量是否成正比
各位,去新加坡旅游有什么好玩的啊?如果要买
图1是一个长为2m、宽为2n的长方形,沿图中虚
《终极三国》里,曹操(会长)第一次弹琴是在
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?