急求助：香农（信息）熵的计算~

答案:1 悬赏:30 手机版

解决时间 2021-01-30 23:19

提问者网友：未信
2021-01-30 14:44

急求助：香农（信息）熵的计算~

最佳答案

五星知识达人网友：胯下狙击手
2021-01-30 15:15

1948 年，香农提出了“信息熵” 的概念，所以叫香农熵。
香农不是用钱，而是用 “比特”（bit）这个概念来度量信息量。一个比特是一位二进制数，计算机中的一个字节是八个比特。在上面的例子中，这条消息的信息量是五比特。信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。）
对于任意一个随机变量 X，它的熵定义如下：
变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。
有了“熵”这个概念，我们就可以回答本文开始提出的问题，即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy)。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。追问请问怎么计算，有软件可以计算么？

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！