本文从两方面进行解释:数学和编码方面。总有一个角度能让你更好理解。数学解释熵Entropy熵用于计算一个离散随机变量的信息量。对于一个概率分布$X$,$X$的熵就是它的不确定性。用大白话来说,假设你预测一个东西,有时候结果会出乎意料,熵就表示出乎意料的程度。熵越大你越不容易预测对,事情就越容易出乎意料。离散型概率分布$X$的熵定义为自信息的平均值:$$H(X)=E_{p(x)}[I(x)]=-\sum_{x}p(x)\logp(x)$$注意:熵的单位可以是比特(bits)也可以是奈特(nats)。二者区别在于前者是用$\log_2$计算,后者是用$\log_e$计算。我们这里是用$\log_2