面向金融文本的多标签事件分类方法研究.pdf
摘要
随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数
据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语
言处理和机器学习领域广泛关注的方向。在金融领域,专业人士通过研读金融事
件描述,根据一系列相关原则,最终确定事件的类型,而同一金融事件常常会被
赋予多个事件类型标签,正确识别和分类这些类型标签可为金融事件摘要、金融
事件自动分类以及金融科技服务等实际业务需求提供重要的技术支持。本文旨在
探讨金融文本的多标签事件分类问题,主要的研究工作如下:
(1)基于半监督学习的金融文本多标签事件分类方法
深度学习方法已在文本的多标签事件分类中得到了广泛应用,但往往需要大
量已标注数据资源。本文针对金融文本事件多标签分类标注数据缺少的问题,提
出了一种基于半监督学习的金融文本多标签事件分类方法。该方法首先通过数据
UDA
增强()方法,用于缓解标注数据量不足的问题;其次,引入了主体词注
意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示,再利用
TextCNN对文本进行综合语义表示;最后,设计交叉熵损失函数和KL散度度量,
分别对标记数据和无标记数据训练本文提出的模型。在金融文本数据集上验证了
本文所提多标签事件分类方法的有效性。
(2)基于事件关系的金融长文本多标签事件分类方法
对于篇章较长的多标签事件分类任务,现有的方法往往采取将文档进行切分
或者使用段首段尾句代替全文后进行训练,往往忽略了上下文之间的关联性,使
文本事件分类的性能不高。通过对金融文本多标签事件分类数据的观察发现,一
篇文本中往往存在一到两个“中心事件”贯穿全文,其他事件用于解释其原因或
者结果。本文针对较长金融文档中多个事件的这一特点,提出了基于事件关系的
金融长文本的多标签事件分类方法,该方法首先在文本中标明中心事件,再根据
不同事件与中心事件的交互,设计金融长文本特有的事件交互图,以事件为节点,
提取事件关系作为边,并应用图神经网络增强邻居事件节点的嵌入;其次,为了
避免噪声和穷举关系提取,将每个事件对也作为节点。通过构建事件关系图,结
合事件中心性,学习到中心事件以及与其相关的其他事件,以此构建分类器对事
件类型进行分类。在本文自建的金融篇章级文本数据上进行实验,本文的方法性
I
能优于其他方法。
(3)基于金融文本的多标签事件分类系统。
基于金融从业者的实际需求,本文设计开发了一个基于金融文本的多标签事
件分类系统,采用了本文提出的基于半监督学习的金融文本多标签事件分类方法
和基于事件关系的金融长文本的多标签事件分类方法,构建了数据处理、事件分
类以及标签输出等功能,可以较好的服务于金融长短文本事件多标签分类任务。
关键词:金融文本;多标签分类;半监督学习;图卷积网络;注意力机制
II
目录
摘要I
ABSTRACTIII
1绪论1
1.1研究背景及意义1
1.2国内外研究现状2
1.2.1多标签文本分类2
1.2.2长文本多标签文本分类4
1.3本文主要研究内容5
1.4本文组织结构6
2基于半监督学习的金融文本多标签事件分类方法9
2.1引言9
2.2金融文本多标签事件分类方法10
2.2.1基于ALBERT的词向量表示10
2.2.2主体词注意力机制12
2.2.3文本的TextCNN表示13
2.2.4一致性无监督数据增强(UDA)14
2.2.5模型参数更新14
2.2.6分类器构建15
2.3实验15
2.3.1数据集及评价指标15
2.3.2比较实验和消融实验设置17