欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

香農熵的性質及證明

錢浩然2年前23瀏覽0評論

香農熵的性質及證明?

1948年,香農提出了信息熵的概念,所以叫香農熵。香農不是用錢,而是用比特表示一個漢字。但漢字的使用是不平衡的。實際上,前10的漢字占文本的95以上。因此,即使不考慮上下文的相關性,而只考慮每個漢字的獨立的概率,那么,每個漢字的信息熵大約也只有89個比特。如果我們再考慮上下文相關性,每個漢字的信息熵只有5比特左右。所以,一本五十萬字的中文書,信息量大約是250萬比特。如果用一個好的算法壓縮一下,整本書可以存成一個320KB的文件。如果我們直接用兩字節的國標編碼存儲這本書,大約需要1MB大小,是壓縮文件的三倍。這兩個數量的差距,在信息論中稱作冗余度redundancy。需要指出的是我們這里講的250萬比特是個平均數,同樣長度的書,所含的信息量可以差很多。如果一本書重復的內容很多,它的信息量就小,冗余度就大。

信息熵 java,香農熵的性質及證明