基于主题分割与PageRank算法的文本主题抽取.doc
文本预览下载声明
基于主题分割与PageRank算法的文本主题抽取(
段晓丽 王宇
(大连理工大学管理学院 辽宁 大连 116024)
[摘 要] 针对主题句抽取时完整性差的问题,本文在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
[关键词] 主题句抽取 主题分割 句子关系图 PageRank算法
[分类号] TP391
The Subject Extraction Based on
Topic Segmentation and PageRank Algorithm
Duan XiaoLi Wang Yu
(School of Management, Dalian University of Technology, Dalian 116024, China)
[Abstract] Considering the completeness of Subject Extraction, this paper sort the sentences with PageRank algorithm based on text theme divisions after reconstructing sentence relation map to every theme package. Then set the sentence which has the maximum weight among all text to be the topics sentence. Experiments show that the topic sentence extraction algorithm has good coverage of the full text.
[Keywords] Topic Sentence Extraction Subject Segmenting Sentence Relation Map PageRank Algorithm
随着计算机技术和互联网的发展,信息急剧增长。网络上大量和查询无关或者关联不大的Web页面和文本给人们的阅读和理解带来了很大麻烦。因此有人提出从文本中自动提取文本的主题,为读者节约宝贵的时间和精力。
主题句是表达文本主题的一种重要方式,主题句抽取是自动文摘等文本自动处理的一项基础性工作。如何从文本中抽取出对全文覆盖性好、完整性强、准确度高的主题句是主题句抽取的关键。
针对这个问题,本文首先对文本进行主题结构分析,将文本按主题划分为几个语义相对内聚的块,再将每个语义块表示为一个句子关系图结构,采用改进的PageRank算法对关系图中的句子进行排序,进行主题句的抽取。
1 相关工作
由于很多文本都是多主题的,在对文本进行主题句抽取时,若直接从全文按照句子的重要度由高到低抽取,大主题虽然能得到充分反映,但是可能造成对次重要主题的遗漏或忽略,完整性差。为了保证主题句对文章内容的覆盖度,在对文本进行主题句抽取前,应先为文本划分主题结构[1,2]。
文本主题结构划分的主要任务是将原有的文本内容划分成一个或几个不同的部分,每一部分具有下面两个特征:每一部分围绕讲述同一个主题;连续的部分讲述不同的主题[3]。目前关于文本主题结构划分的方法有很多,如国外比较经典的TextTiling方法[4]、Dotploting方法[5]、Kozima在1993年提出的基于词汇集聚图(Lexical Cohesion Profile)的方法[6]等。但上述这些方法在处理特征间相似性时都是采用了基于词的统计信息,没有充分利用文本上下文的语义信息。
本文采用的是基于连续段落相似度的主题划分方法,以句子作为最小切分粒度,通过计算相邻段落间句子相似度来得出段落间的相似度,再根据所得信息进行文本主题分割,更加充分利用了文本上下文的语义信息。
文本主题句抽取的关键在于给句子赋予有效的权值。评估句子重要性的方法目前通常包括度量句子中词的权值、句子间的相互关系以及借助文本的结构形式来评估句子的重要性[7]。文献[8]提出了一种基于句子特征来确定句子权值的方法,文献[9]采用句子特征与句子间语义关系相结合的方法为句子打分,但是这种基于文本特征抽取的方法通常都需要事先为每个特征设定一定的权值,鲁棒性较差。文献[10]采用以关键词抽取为核心的文摘句选择策略;文献[11]中根据汉语文本切分困难的特点,结合信息论方法,以字同现频率为基础,统计句(段)的信息量,作为权重对句子进行排序,抽取主题句(段),这种基于统计的方法是根据文章的外在特征进行抽取,不能充分利用文本的语义信息,因而抽取结果也不理想
显示全部