基于知识图谱语义增强的文本分类研究_.pdf
摘要
近年来,我国图书馆建设事业不断谋求智慧化转型,使得学界以“智慧图书
馆”为主题的期刊文献呈指数级增长。鉴于新兴技术的开发和应用是推动智慧图
书馆建设的核心动力,如何从海量期刊文献中高效率地筛选出技术类研究,借鉴
先进技术设想并将其应用于现实建设成为关乎智慧图书馆发展的热点问题。文本
分类作为知识组织的一种方式,能够依据题录特征、语言特征等自动判断文本类
别,促成研究人员对高质量文本知识的精准发现。然而,以往的文本分类算法多
以短文本为对象,始终无法完整地捕获期刊文献中的长语义信息。近期知识图谱
技术逐渐兴起,由于它能够以知识三元组的形式关联文本语义,一些研究人员提
出构建面向学术期刊的知识图谱,并将其作为长文本分类的语义增强工具。然而,
受人力、效率等因素影响,当前大多学术知识图谱构建工程始终局限于篇名、摘
要等外部特征维度,本质上仍未触及期刊文献正文中深层次的语义及知识关联。
基于此,本文以期刊文献全文本为知识图谱的构建对象,设计了一套基于知
识图谱的语义增强方法,并完成了对以“智慧图书馆”为主题的期刊文献技术元
素与非技术元素的二分类。主要工作如下:第一,在分析和借鉴诸多知识图谱模
型的基础上,针对“智慧图书馆”,设计了标准化的技术元素知识图谱构建框架。
该框架的核心在于对语义元素标注规则的设定。第二,完成了智慧图书馆技术元
素知识图谱构建实验。实验内容包括:利用深度学习模型BERT-BiLSTM-CRF-
RBERT完成实体及实体关系抽取;利用实体消歧技术完成知识融合;利用Neo4j
等图数据库完成知识的持久化存储与可视化呈现。第三,提出了一种基于知识图
谱语义增强的文本分类模型。该模型在传统题录特征、语言特征的基础上,将实
体特征嵌入特征工程设计,使文本分类粒度由篇章缩小至词汇级别,弥补了以往
模型无法突出关键语义信息的缺陷,精度和准确性更高。
本研究以“智慧图书馆”主题文献全文本为对象,相较其它仅关注篇名、摘
要等外部特征的学术领域知识图谱而言,对学术期刊类型知识图谱的语义表示更
加深入。这有助于读者厘清技术间错综复杂的关系结构,有助于研究人员快速获
取并理解海量文本中的技术信息,从而更加高效地开展智慧图书馆建设实践。与
此同时,本文基于知识图谱语义增强的文本分类模型,自定义实体知识库聚焦关
键信息,较好地完成了对“智慧图书馆”主题下的期刊文献二分类。这有助于帮
助科研工作者精准发现目标文献,从而大大缩减他们知识储备的时间,提高写作
I
质量和效率。
关键词:智慧图书馆;知识图谱;文本分类;机器学习;BERT
II
Abstract
Inrecentyears,Chinaslibrarieshavebeenconstantlyseekingintelligent
transformation,whichhasledtoanexponentialgrowthinjournalliteratureonthetopic
ofintelligentlibrariesintheacademiccommunity.Giventhatthedevelopmentand
applicationofemergingtechnologiesisthecoredrivingforcetopromotethe
constructionofsmartlibraries,howtoefficientlyscreenoutthetechnicalstudiesfrom
thevastamountofperiodicalliterature,anddrawontheadvancedtechnicalconceptsand
applythemtotherealconstructionhasbecomeahotissuerelatedtothedevelopmentof
smartlibraries.Textclassification,asawayofknowledgeorganization,can
au