文档详情

基于特征、先验和约束的主题建模算法-计算机应用技术专业论文.docx

发布：2019-03-25约7.73万字共66页下载文档

文本预览下载声明

苏州大学学位论文使用授权声明本人完食了解苏州大学关于收集、保存和{:l!JI1掌钝论文的规定， KD:学位论文著作仪归属苏州火学.本学收论文电子立;梢的内容和纸 m论文的内容相一致，苏州大学街仪向恩家剖斗4械、中因社科院文献 f吉恩情报中心、中国科学技术信息研究所 (含万万般据电子出报社)、自 l因学术朋币tl (光靠版〉电子杂，被送交本学位论文的复印件和电于 J(挡，允前1论文被查阅有1倍阂，可以采用;在印、缩印或其他复削手段 {取得和汇偏节俭论文，可以将学校论文的全部成部分内容编入有必数据月1地行也索 . 涉司百论文 3 2位学{it.论文原 d二--作-一月解峦后运用本规定. 4陪密论文d M作省签名: _l蓝己盟一口剿:J!年μ全导师签名z 辈在 n ltIl: 卫生4生基于特征、基于特征、先验和约束的主题建模算法摘要基于特征、先验和约束的主题建模算法摘要潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）是一种用来分析大规模文档的概率主题模型，它从文档的单词表示中抽取出语义相关的主题集合，将文档从单词空间变换到主题空间，得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题：一是公用词和停用词几乎占据了所有的主题，LDA的主题分布向高频词倾斜，能够代表主题的关键词被少量的高频词掩盖，从而导致较差的主题可解释性；二是如何改善基于主题特征的低维空间表示，以提高检索、聚类和分类准确率。针对这两个问题，我们从连续特征、非对称先验和稀疏约束这三个方面对LDA进行分析。 LDA使用离散的词频特征作为输入，假设语料库中单词的重要程度只与词频相关。连续特征考虑不同位置单词的区别，并给予在部分文档中出现频率高而在语料库的其它文档中出现频率低的单词一个较高的值，而给予在整个语料库所有文档中出现频率都很高的单词一个较低的值。停用词和公用词的特征值得到降低，使得主题分布中这些词的概率值变小，得到连贯的主题表示。因为公用词对LDA参数推理和估计也有一部分贡献，所以连续特征对改善主题空间低维表示的效果并不是十分显著。 LDA的先验通常启发性地设定为对称的固定值，然而，利用每次迭代得到的主题信息去估计先验将会更加接近于真实值。对称先验使公用词和停用词以相同的可能性分配给所有的主题，而非对称先验会使停用词以较大的可能性分配给有较高先验的主题，让停用词集中出现在少数几个主题中。在模型的训练过程中，通过对先验的学习，提高了模型的后验概率，使主题特征的低维空间表示更加精确。通常越稀疏的信息就能越清晰的反映出它所表示的意义，停用词和公用词往往出现在多个主题中，它们的主题表示有较低的稀疏度，而一些反映主题意义的关键词的主题表示则有较高的稀疏度。在模型参数估计和推理的过程中增加稀疏限定，去鼓励那些有较高主题稀疏度的单词，惩罚有较低主题稀疏度的单词。从而解决LDA中停用词和公用词的问题，并改善主题特征的低维空间表示。 I 摘要基于特征摘要基于特征、先验和约束的主题建模算法本文在LDA模型的基础上，围绕文本数据，以连续特征、非对称先验和稀疏约束为出发点，建立能融和这三种因素的概率产生式图模型以及因子图，提出改进的消息传递算法并对它们进行综合性的评价。结果表明，连续特征的LDA模型通过有效的移除停用词和公用词提高了主题分布的可解释性，非对称先验在主题可解释性、文档分类以及聚类准确率等几个标准上都有所改进，稀疏限定也提高了整体性能。关键词：潜在狄利克雷分配，消息传递，连续特征，非对称先验，稀疏约束作者：吴晓娜指导教师：曾嘉 II Topic Topic Models Algorithm Based on Features, Priors and Constraints ABSTRACT PAGE PAGE III Topic Models Algorithm Based on Features, Priors and Constraints Abstract As one of the popular probabilistic topic models, Latent Dirichlet allocation (L- DA) has been recognized as useful tools for analyzing documents. It extracts semantic topics from co-occurrence of words in document level, transforms documents locating in

显示全部

相似文档