Computational_Linguistics_04熵和语言模型评价教材.pdf
文本预览下载声明
熵和语言模型评价
常宝宝
北京大学计算语言学研究所
chbb@pku.edu.cn
最优编码
有一个房间中有时没有人,有时甲在房间中,有时乙
在房间中,有时甲乙都在房间中,房间状态服从下面
的概率分布:
定时记录房间状态(消息) ,将房间状态编码,并通过通
信设备发送出去。如何编码,使得连续发送消息时,
编码长度最短?
定长编码 2个二进制位
发送一个消息,平均2个二进制位。
最优编码
变长编码:给小概率信息赋以较长的编码,而给大概
率消息赋以较短的编码。
发送一个消息,平均需要1.75个二进制位。
0.5 ×1+0. 125×3 +0. 125×3 +×0.25 ×2 1.75
最优编码
随机变量X 服从概率分布 P ,如果消息x 的分布密度
为p (x) ,则给其分配一个长度为⎡−log 2p (x )⎤个二进制
位的编码。
发送一个消息平均需要 − p (x ) log 2p (x ) 个二进制位。
∑
消息的编码长度大,可理解为消息所含信息量大。
消息的编码长度小,则消息所含信息量小。
平均信息量即为发送一个消息的平均编码长度。
信息论中用熵描述随机变量平均信息量。
熵(entropy)
定义1 熵 设X 是取有限个值的随机变量,它的分布
密度为
p (x) = P {X=x },且x ∈X
则,X 的熵定义为 熵描述了随机变量
H (X ) − p (x ) log p (x )
∑ a 的不确定性。
x ∈X
规定 0log 0 = 0
a
通常a=2 ,此时熵的单位为比特。
熵的基本性质:
1. H(X ) ≥0,等号表明确定场(无随机性) 的熵最小。
2. H(X ) ≤log|X|,等号表明等概场的熵最大。
熵
语言的字母熵
联合熵、条件熵
定义2 联合熵 设X 、Y是两个离散型随机变量,它们的
联合分布密度为p (x ,y ) ,则X ,Y的联合熵定义为:
H (X , Y ) −∑∑p (x , y ) log p (x , y )
x ∈X y ∈Y
定义3 条件熵 设X 、Y是两个离散型随机变量,它们的
联合分布密度为p (x ,y ) ,则给定X 时Y的条件熵定义为:
H (Y | X ) − p (x )H (Y | X x )
∑
x ∈X
⎡ ⎤
∑p (x )⎢−∑p (y | x ) log p (y | x ) ⎥
x ∈X ⎣ y ∈Y ⎦
−∑∑p (x , y ) log p (y | x )
x ∈X y ∈Y
链式规则 H(X ,Y) = H(X ) + H(Y|X )
熵率(entropy rate)
信息量的大小随着消息长度的增加而增加,为了便于
比较,一般使用熵率的概念,熵
显示全部