永发信息网

急求助:香农(信息)熵的计算~

答案:1  悬赏:30  手机版
解决时间 2021-01-30 23:19
急求助:香农(信息)熵的计算~
最佳答案
1948 年,香农提出了“信息熵” 的概念,所以叫香农熵。
香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)
对于任意一个随机变量 X,它的熵定义如下:
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。追问请问怎么计算,有软件可以计算么?
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
陆龟市场价是多少钱一斤?
今铭信航空培训中心地址在什么地方,想过去办
嘉乐电玩怎么去啊,我要去那办事
根据《关于加强商业性房地产信贷管理的补充通
小蒜沟牛家营村村民委员会在什么地方啊,我要
潍坊市新科消防安保职业培训学校地址在哪,我
金乐电玩室地址在哪,我要去那里办事
智能美菱冰箱bcd221ze3bda怎样调温度- 百度
亲们,红星美凯龙北五环店22号开始搞促销了,
在厨房煮鸡蛋糊锅了的难闻气味怎么祛除
潍坊市建设局培训中心地址好找么,我有些事要
为过去而过去
东星游戏厅怎么去啊,我要去那办事
通过...使...(不对,缺主语,)例子。
贾立平是什么星座
推荐资讯
雪颜棠美容养生会所地址在什么地方,我要处理
梵 这个字有什么含义?
桑塔纳c1侧位停车尺寸
今年五一假期崂山登山年卡什么时候不能用
单选题下列关于生物遗传和变异的叙述,正确的
l976年后8月初4出生的男人婚姻的结果是啥
济南东火车站到济南长途汽车站,怎么走?打的
matlab 求-120*x^3-30*x^4+18*x^5+5*x^6-30*x
证明实数域上的行列式为1的n阶方阵全体关于矩
如何安装刷机驱动
【四年级语文期中试卷】四年级上册语文期中试
兴隆宾馆(兴隆街)地址有知道的么?有点事想过
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?