文档详情

Computational_Linguistics_04熵和语言模型评价教材.pdf

发布:2017-07-07约字共19页下载文档
文本预览下载声明
熵和语言模型评价 常宝宝 北京大学计算语言学研究所 chbb@pku.edu.cn 最优编码 有一个房间中有时没有人,有时甲在房间中,有时乙 在房间中,有时甲乙都在房间中,房间状态服从下面 的概率分布: 定时记录房间状态(消息) ,将房间状态编码,并通过通 信设备发送出去。如何编码,使得连续发送消息时, 编码长度最短? 定长编码 2个二进制位 发送一个消息,平均2个二进制位。 最优编码 变长编码:给小概率信息赋以较长的编码,而给大概 率消息赋以较短的编码。 发送一个消息,平均需要1.75个二进制位。 0.5 ×1+0. 125×3 +0. 125×3 +×0.25 ×2 1.75 最优编码 随机变量X 服从概率分布 P ,如果消息x 的分布密度 为p (x) ,则给其分配一个长度为⎡−log 2p (x )⎤个二进制 位的编码。 发送一个消息平均需要 − p (x ) log 2p (x ) 个二进制位。 ∑ 消息的编码长度大,可理解为消息所含信息量大。 消息的编码长度小,则消息所含信息量小。 平均信息量即为发送一个消息的平均编码长度。 信息论中用熵描述随机变量平均信息量。 熵(entropy) 定义1 熵 设X 是取有限个值的随机变量,它的分布 密度为 p (x) = P {X=x },且x ∈X 则,X 的熵定义为 熵描述了随机变量 H (X ) − p (x ) log p (x ) ∑ a 的不确定性。 x ∈X 规定 0log 0 = 0 a 通常a=2 ,此时熵的单位为比特。 熵的基本性质: 1. H(X ) ≥0,等号表明确定场(无随机性) 的熵最小。 2. H(X ) ≤log|X|,等号表明等概场的熵最大。 熵 语言的字母熵 联合熵、条件熵 定义2 联合熵 设X 、Y是两个离散型随机变量,它们的 联合分布密度为p (x ,y ) ,则X ,Y的联合熵定义为: H (X , Y ) −∑∑p (x , y ) log p (x , y ) x ∈X y ∈Y 定义3 条件熵 设X 、Y是两个离散型随机变量,它们的 联合分布密度为p (x ,y ) ,则给定X 时Y的条件熵定义为: H (Y | X ) − p (x )H (Y | X x ) ∑ x ∈X ⎡ ⎤ ∑p (x )⎢−∑p (y | x ) log p (y | x ) ⎥ x ∈X ⎣ y ∈Y ⎦ −∑∑p (x , y ) log p (y | x ) x ∈X y ∈Y 链式规则 H(X ,Y) = H(X ) + H(Y|X ) 熵率(entropy rate) 信息量的大小随着消息长度的增加而增加,为了便于 比较,一般使用熵率的概念,熵
显示全部
相似文档