$$F_N = -\sum_{b_N}p(b_N)\log_2p(w_N|b_{N-1})= -\sum_{b_N}p(b_N)\log_2p(b_N)-(-\sum_{b_{N-1}}p(b_{N-1})\log_2p(b_{N-1}))$$个人解读如下香农提出$$F_N$$背后的insight是为了引入上下文,所以考察连续$$N$$个字符的熵,并且把常规$$\mathbf{E}_{p(b_N)}[-\log_2 p(b_N)]$$改成了带条件概率的$$\mathbf{E}_{p(b_N)}[-\log_2p(w_N|b_{N-1})]$$。这样就把先验2纳入指标设计了。对$$b_N$$可以求和是因为可以沿着字符序列S不断滑窗可以得到很多组$$b_N$$数据如果定义$$K_N=-\sum_{b_N}p(b_N)\log_2p(b_N)$$,则$$F_N=K_N-K_{N-1}$$容易看出$$K_N$$就是连续N个字符的熵$$H(b_N)$$,即前文的$$\mathbf{E}_{p(b_N)}[-\log_2 p(b_N)]$$当$$N$$逐渐增大的时候,$$F_N$$越来越逼近自然语言$$L$$真正的熵$$H$$,即$$H = \lim_{n\rightarrow\infty}F_n$$