信息论第5讲平均互信息的凸性(含习题).ppt
文本预览下载声明
平均互信息的凸性 第5讲 Jensen不等式:若f(?)是R上的凸∩函数,则 E [f(?)] ≤ f (E (?)) 其中,E表示数学期望。 证明:只对离散情况证明。 对于离散变量,令 ,则E [f(?)] ≤ f (E (?)) 可写成 可用归纳法进行证明。对两点分布,根据凸函数的定义有 假设当分布点个数为n时不等式成立,考察分布点个数为 n+1时的情况。 对 ,令 则有 证毕 定理: 如果函数f(x)在某个区间上存在非负(正)的二阶导数,则 f(x)为该区间上的凸∪函数(严格凸∪函数)。 证明:利用函数f(x)在x0点的泰勒级数展开: 其中x*位于x0和x之间。 根据假设 ,因此,对任意的x,最后一项总是非负。 设 取 ,可得 类似地,取 ,可得 因此,得 证毕 同理可证:如果函数f(x)在某个区间上存在的二阶导数≤0(0),则 f(x)为该区间上的上的凸∩函数(严格凸∩函数)。 利用该定理,可以立即判定 : 都是严格凸 ∪函数, 为严格凸∩函数。 证:首先证明充分性。 设函数f在?点满足KT条件,今证明 为极大值,即对任意 ,恒有 。 由于f是凸∩函数,所以 ? f (?)+(1-? ) f (?)≤f [? ?+(1-? )?] 0<? <1 即 f (?)-f (?)≤{f [? ?+(1-? )?]-f (?)}/? 0<?<1 由KT条件有 将其代入上式得 从而证明 为极大值。 现在证明必要性。令 使f 达到极大值,并假定偏导数在 处连续。则对任意 ,有 式中0<?<1。 以θ除两边并令θ→0 得 即 因 为是概率矢量,所以至少有一个分量,例如?i是严格正的,即?i0。 选择另一概率矢量?满足 式中 。 于是有 对于 也可选负值和正数,有 和 即 平均互信息量凸性 由互信息的定义式: 可知,它是输入分布 及转移概率分布 的函数。 可以记为: 如果转移概率分布固定,I(X,Y)就是先验概率Q(X)的函数; 如果信源先验概率固定,I(X,Y)就是转移概率P(Y/X)的函数。 定理2.5.2 当条件分布 p(y/x)给定时,平均互信息I(X;Y)是输入分布q(x)的凸∩函数。 证明: 令q1和q2是输入集X上的任意两个概率矢量,相应的互信息为I1和I2,令θ满足0θ1,q=θq1+(1-θ)q2是合成概率矢量,此时输入X和输出Y之间的互信息为I。 今需要证明: . 令p1(xy)=q1(x)p(y/x), p2(xy)=q2(x)p(y/x), 有 p(xy)= q(x)p(y/x)=θp1(xy) +(1-θ) p2(xy) 根据平均互信息的定义,得
显示全部