基于主题的关键词提取方法对比研究(中)要点讲解.doc
文本预览下载声明
验分布与似然函数是共轭的。LDA算法中,对于一个随机变量而言,其似然函数为多项式分布,并且其先验分布为Dirichlet分布,那么其后验概率仍为Dirichlet分布。LDA算法中之所以选择Dirichlet因为可以减轻计算量。给一个例子说明Dirichlet分布,假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,这个骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表表示如下: 0.5 概率 1/7 1/7 1/7 1/7 1/7 2/7 0.25 概率 1/8 1/8 1/8 1/8 1/8 3/8 0.25 概率 1/6 1/6 1/6 1/6 1/6 1/6
我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet。设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。α是一个向量,表示的是某个事件出现的次数。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~510次6,那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合,比如{1/7,1/7,1/7, 1/7,1/7,2/7};{1/8, 1/8, 1/8, 1/8, 1/8, 3/8};{1/6, 1/6, 1/6, 1/6, 1/6, 1/6},那么P(X)则表示了该概率组合出现的概率,也就是概率的概率。α,它表示了各个基本事件的权重。
图 3.2 Dirichlet分布受到参数的影响
Dirichlet分布受参数的控制,由图3.2中可以看出当=[1,1,1]时,分布较为平均;当=[0.1,0.1,0.1]时,分布集中于边缘;当=[10,10,10],分布集中于中心区域中一个较小的范围;当=[2,5,15],分布集中于偏离中心的一个小范围内。对于Dirichlet分布而言,的分量大小控制分布的集中程度,分量差异程度控制着分布的位置。
3.2 潜在语义分析(LSA)
潜在语义分析Latent Semantic Analysis)或者潜在语义索引Latent Semantic Index),是1988年S.T. Dumais等人提出了一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。LSA是基于线性代数理论进行语义分析的一种理论方法,它的核心思想是认为文档中词与词之间存在着某种隐含的语义关系(称之为语义空间),这种语义空间在文档中的上下文结构中,通过统计分析方法可以得到。在语义空间中同义词被定义为,具有相同或类似含义的词语间有一个相同的语义空间,而对于那种一词多义的词语而言,则根据用法的不同会存在不同的语义空间结构中。通过挖掘这种隐含语义结构,有利于进一步消除文档中同义、多义现象在文档表达过程中造成的影响。解决语义混乱问题的一个关键步骤就是如何将文档和词映射到同一语义空间中进行分析研究。在这里主要用到一个方法即奇异值分解[28](Singular Value Decomposition,SVD)。SVD分解的重要意义在于将文档从稀疏的高维词汇空间映射到一个低维的向量空间[29]。
LSA 在信息滤波、文档索引、视频检索、文本分类与聚类、图像检索、信息抽取等…dN},词汇集合为W={ w1, w2, w3,…wM },那么我们可以将数据集合表示称为一个M×N共生矩阵,也就是词项—文档矩阵的概念,即由M个词项和N篇文档组成的一个M×N的权重矩阵 C,矩阵的每行代表一个词项,每列代表一篇文档。这种表示的优点包括:可以将查询和文档转换成同一空间下的向量,可以基于余弦相似度进行评分计算,能够对不同的词项赋予不同的权重,除了文档检索之外还可以推广到诸如聚类等其他领域,等等。但是,向量空间表示方法没有能力处理自然语言中的两个经典问题:一义多词(synonymy)和一词多义(polysemy)问题。一义多词指的是不同的词(比如 car 和 automobile)具有相同的含义。向量空间表示方法不能捕捉诸如 car 和automobile这类同义词之间的关系,而是将它们分别表示成独立的一维。因此,如果我们计算查询向量(如car)和文档dr(同时包含有car和automobile的文档
显示全部