《微博话题检测和跟踪技术研究的国内外文献综述》2900字.docx
PAGE11
PAGE11
微博话题检测和跟踪技术研究的国内外文献综述
在传统文本处理领域,话题检测与跟踪技术已经日渐发展成熟,该技术主要应用于对互联网信息流的主题抽取和新主题发现[3]。最近几年,Facebook、Twitter和新浪微博的出现,掀起了一股对于社交平台热点话题发现相关研究的热潮。所谓热点话题,一般是指在特定的时间和范围内,一旦发生就会引起广泛和持续关注的,能反映当下舆论状况的热门事件[4]。热点话题发现是自然语言处理和信息检索领域中被广泛研究的热点问题[5]。针对传统的话题发现与追踪技术并不能很好地适用于Twitter、微博等短文本集合中,国内外研究学者针对网络社交平台开展了大量研究工作,提出并验证了一系列短文本热点话题发现技术。
国外学者对热点话题发现研究主要是基于Twitter来进行的,并且多是分析一些潜在社会话题[6]。Mario等人[7]认为,如果一个话题在一段时间内被多次检测到,但之前很少被检测到,那么这个话题可能是一个热点话题,基于此理论提出了一种Twitter热点话题发现方法。Swit等人[8]提出使用采集、分组和排序等方法对Twitter中的爆炸性新闻进行检测。Sankaranarayana[9]利用每个话题的消息时间与发布时间的时间间隔来判断话题活跃度,根据活跃度衡量该话题是否为热点话题。Sakaki等人[10]以地震为例提出里一种基于Twitter关键词及Twitter内容的算法来监控事件是否为目标话题。
在国内,新浪微博相比于国外的Twitter而言,二者语言不同,在文本处理上也存在一些差异。目前对于微博热点话题研究主要有以下三个方向:
(1)对于微博文本表示方法的研究。目前基于向量空间模型(VectorSpaceModel,VSM)[11]的文本表示方法较为普遍,但使用这种文本表示方法构建的文本向量空间矩阵存在高维问题,加上VSM模型基于词语之间独立性假设,以单个词汇作为文本特征,并没有考虑微博文本词语之间的潜在语义关系,大大影响聚类效果。鉴于VSM文本表示模型带来的各种问题,研究者开始尝试使用主题模型和知识库等外部资源来进行短文本特征扩展。
在使用主题模型方面,目前研究较为广泛的就是LDA(LatentDirichletAllocation)[12]主题模型,路荣等[13]针对微博短文本的特殊性,提出采用LDA模型进行隐主题挖掘,利用隐主题分析技术计算微博文本之间的相似度,实现微博话题聚类。YeY等[14]将微博中的点赞、评论、转发、时间、用户权限等微博特征信息添加到主题模型中,利用这些特征计算每个微博的关注价值、权威价值和词频,构造了微博新的主题模型MF-LDA,实验显示具有更好的准确性。陈珊珊[15]使用LDA模型来挖掘隐藏在数据中主题信息,使用主题信息来实现文本表示。王亚民等[16]通过分析微博的语体特征,提出用BTM模型对词对进行建模,随后利用优化后的TF-IDF算法来计算文本相似度,进而实现微博聚类。但由于该算法时间复杂度较高,效果不是很理想。由于主题模型在使用时仅仅依靠词频统计进行主题分配,通常会由于语义信息缺乏而导致最终话题识别率不高。
另外,还可以使用维基百科、HowNet等外部知识库进行语义扩展,此方法是根据一定的语义或词义规则,从大规模的语料库中合成相应的词,并利用大规模语料对短文本词语进行语义补充。Liu等[17]提出使用HowNet来扩展文本中单词的语义特征,以达到更好的聚类效果。Litou[18]使用维基百科语料进行文本语义扩展,但由于引入了很多主题无关词导致特征词提取准确率不高。由于通过第三方外部语料库扩充文本特征的方法需要引入额外的投入,而且选择合适的外部语料库存在一定难度,文本聚类效果易受到影响。
为了进一步解决文本表示模型的高维问题,有学者提出将频繁词集的概念[19]应用于短文本聚类中。Zhang等人[20]提出使用频繁词集作为特征来对文本进行表示,并利用文本所包含的频繁词集数目来衡量文本之间的相似度进行聚类。徐雅斌等人[21]针对微博这一特殊媒体进行分析,提出使用频繁词集聚类FWSC算法进行微博话题发现。这种频繁词集聚类方法只考虑了短文本自身的统计信息,并且容易漏掉文本中的一些能表现主题的非频繁词,加上微博文本本身特征词汇量少、一词多义现象,大大增加了微博热点话题发现的难度。
(2)微博话题检测方法研究。在微博话题检测方面,通常使用传统的文本聚类算法,如划分聚类、层次聚类、图论聚类等。谢修娟等[22]借鉴密度算法的思想,来优化传统的K-means算法中对初始聚类中心的选择,最终将改进算法应用于新浪微博话题发现。彭敏等[23]提出一种聚类簇数目自适应的频繁项集谱聚类算法CSA_SC,并利用该算法实现微博文本话题聚类。檀娟伢[