基于标签概念的多标签文本分类方法.pdf
摘要
随着社交媒体平台的涌现和移动设备的广泛普及,互联网中产生了大量的文本
数据,为了从这些数据中提取有用的信息,多标签文本分类技术应运而生。然而,
现有的多标签文本分类方法主要注重文本表示学习,关注文本内部信息预测所属的
标签,但往往忽略了属于某一标签的所有实例之间共享的关键信息。鉴于此,本文
就如何将这些共享信息显式表达出来进行深入研究与探讨,并将其应用于多标签文
本分类过程中,提出一种基于标签概念的多标签文本分类方法。
首先,为获取标签的全局关键信息,提出基于词频和潜在狄利克雷分布(Latent
DirichletAllocation,LDA)主题模型获取标签概念的方法。具体而言,针对每个标签建
立一个标签语料库,并进行词频统计,候选前k个构成词频关键词集。为进一步区别
关键词重要性,使用LDA主题模型方法,为每个标签语料库拟定两个主题,选取每
个主题概率最高的k/2个关键词,构成主题关键词集。然后,侧重两词集共有关键词
生成关键词句,采取与文本编码相同方式对关键词句编码,获得显式且更具细粒度
的标签概念表示。其次,为使文本编码中学习标签的全局关键信息,设计出一种基
于对比学习的多标签文本分类技术优化策略。在训练和预测过程中,将每一条文本
表示与全部标签概念进行对比。通过引入对比学习,使得模型能够更好地捕捉文本
和标签之间的相似性和差异性。然后构建模型框架,将更关注全局标签特征的KNN
预测结果与更侧重特定文本内部特征的基线模型预测结果进行加权求和,使得预测
结果更加合理,提高模型的可解释性与鲁棒性。最后,本文在两个多标签文本分类
数据集AAPD和RCV1-V2对所提出的模型进行实验验证与分析。将本文方法嵌套在
常用的多标签文本分类方法上,实验结果表明本文方法有效提高了基础模型的性能。
综上所述,本文以学习标签的全局特征为出发点,提出了一种基于标签概念的多
标签文本分类方法。该方法将文本实例中每个标签所特有的信息独立提取出来,并
结合对比学习应用在文本编码过程中,以便在编码过程中学习来自全体文本实例的
知识,从而提升预测性能。该研究为未来的多标签文本分类工作提供了新的解决思
路。
关键词:标签概念;全局关键信息;对比损失;多标签文本分类;LDA主题模型
Abstract
Withtheemergenceofsocialmediaplatformsandthewidespreaduseofmobiledevices,
alargeamountoftextualdatahasbeengeneratedontheInternet.Inordertoextractuseful
informationfromthisdata,multi-labeltextclassificationtechniqueshaveemerged.However,
existingmulti-labeltextclassificationmethodsmainlyfocusontextrepresentationlearning,
payingattentiontopredictinglabelsbasedoninternalinformationofthetext,butoften
ignoringthekeyinformationsharedamongallinstancesbelongingtoacertainlabel.Inview
ofthis,thispaperdeeplyinvestigatesandexploreshowtoexplicitlyexpressandutilizethese
sharedinformation,andproposesamulti-labeltextclassificationmethodbasedonlabel
concepts.
Firstly,toobtaintheglobalkeyinformationoflabels,amethodbasedonwordfrequency