基于增量宽度联邦学习的快速分类算法研究及应用.pdf
哈尔滨理工大学工学硕士学位论文
基于增量宽度联邦学习的快速分类算法研究及应用
摘要
随着大数据时代的到来,数据孤岛和隐私问题受到社会广泛关注。联邦学
习(FL)是一种新兴的隐私计算方法,允许用户数据不离开本地设备,即可建
立一个更全面、多样化的模型,因此能有效解决数据孤岛和用户数据隐私问
题。然而,目前的主流联邦学习方法普遍基于深度网络,模型训练时间长,且
面临模型遗忘及多用户数据分布差异、不平衡的问题。因此,研究基于宽度网
络的联邦学习方法,实现高效的模型构建以及模型的动态更新,并解决多用户
数据分布差异、不平衡问题具有重要的实际意义。针对上述问题,本论文提出
一种快速宽度联邦学习分类算法,包含宽度联邦学习及其增量学习两个部分。
(1)提出一种宽度联邦学习算法。该算法以随机映射为核心构建宽度联
邦学习框架,解决多用户数据隐私保护且分布差异条件下的高效分类问题。具
体为:以宽度网络的简化表示方法为基础,将本地各用户数据通过随机映射加
密获得其随机特征,并在服务器端利用稀疏自编码器对随机特征进一步挖掘,
从而快速构建多用户联邦全局模型,实现模型的高效训练。
(2)提出一种数据增量的宽度联邦学习算法。该算法以宽度网络的增量
学习方法为核心,将全局模型参数与新增知识进行动态融合以解决模型遗忘问
题。针对多用户输入数据增加的场景,设置新增样本数量阈值,通过随机映射
方法构建新增加密特征集,提出利用Greville算法动态更新全局模型参数,无
需对模型进行重新训练,实现宽度联邦模型的数据增量学习。
所提方法在2种数据分布场景下,通过4种公开数据集在故障诊断、图像
分类等应用领域中进行了实验验证。与现有联邦学习方法相比,所提方法兼顾
了安全性、稳定性、高效性。实验结果表明,所提方法能够快速完成模型训
练,平均训练时间53.8s,是现有联邦学习方法训练时间的1.2%左右;所提方
法能够有效完成分类任务,平均测试准确率93.9%,同时能够利用新增数据动
态更新模型参数,在一定条件下有效提升模型分类精度。
关键词宽度网络;联邦学习;数据隐私;增量学习;随机映射
-I-
哈尔滨理工大学工学硕士学位论文
ResearchandApplicationofFastClassification
AlgorithmBasedonIncrementalBroad
FederatedLearning
Abstract
Withtheadventofthebigdataera,datasilosandprivacyconcernshave
receivedwidespreadattentioninsociety.Federatedlearning(FL)emergesasanovel
privacycomputingmethod,allowinguserdatatoremainonlocaldevices,thus
enablingtheestablishmentofamorecomprehensiveanddiversifiedmodel.
Therefore,iteffectivelyaddressestheissuesofdatasilosanduserdataprivacy.
However,thecurrentmainstreamFLmethodsrelyheavilyondeepneuralnetworks,
resultinginlongmodeltrainingtimesandfacingchallengessuchasmodelforgetting,
as