基于区块链的联邦学习节点动态选择技术研究.pdf
摘要
随着数据安全、隐私保护相关的法律法规和行业要求的愈加严格,传统机器
学习算法面临缺乏高质量、大规模数据的挑战,产生数据孤岛问题。为了实现数
据“可用不可见”的新型交易范式,联邦学习(FederatedLearning,FL)技术被广
泛运用于模型训练过程。跨设备的联邦学习主要是多个设备客户端节点(以下简
称:设备节点)在不共享隐私数据的条件下,协同训练全局模型。然而,在跨设
备的联邦学习场景下,设备节点通常具有地理位置、标注能力、安全级别等差异,
导致其收集的数据面临非独立同分布(NonIndependentandIdenticallyDistributed,
Non-IID)以及恶意节点攻击等问题。一方面,非独立同分布问题使得各节点训练
的模型差异性大,给全局模型带来精度低、不收敛等问题;另一方面,恶意节点
攻击使得系统容易遭受中毒模型侵害,导致联邦学习系统的鲁棒性降低、甚至模
型失效。本文研究联邦学习中设备节点因非独立同分布(Non-IID)和恶意攻击行
为给联邦学习系统带来的负面影响和防范措施,聚焦于上述问题,本文展开如下
研究工作:
(1)首先提出基于特征权重的联邦学习节点分组选择方法FedFGC(Federated
Feature-basedGroupChoice,FedFGC),该算法通过本地训练出的最优特征权重参
数向量进行设备节点分组集群选择,分组选择后进行集群内本地模型训练,得到
效果更好的全局模型。仿真实验证明了方法在独立同分布、非独立同分布、分组
集群数不同场景下的有效性,并对比了FedAvg、FedNova、FedProx三种联邦学
习算法,实验结果表明提出的方法在模型精度和鲁棒性方面更优。
(2)其次基于PoS(ProofofStake,PoS)的区块链联邦学习,提出了一种区
块链的信用机制支持的联邦学习节点动态选择算法CS-PoS(CreditScoreProofof
Stake,CS-PoS)。通过引入基于等级信用评分的机制来从多个指标评估每个设备
节点的可信度,确保信用值和奖励是正相关的,任何合法的节点都会遵循模型训
练规则来最大化利益。理论分析及在MNIST与CIFAR-10数据集上进行仿真实
验,均表明提出方法能够有效解决模型准确度低和数据安全等问题。
关键词:区块链,联邦学习,非独立同分布,设备节点选择,鲁棒性
Abstract
Withtheincreasinglystringentlaws,regulationsandindustryrequirementsrelated
todatasecurityandprivacyprotection,traditionalmachinelearningalgorithmsare
facedwiththechallengeoflackofhigh-qualityandlarge-scaledata,resultinginthe
problemofdatasilos.Inordertorealizethenewtransactionparadigmofavailablebut
notvisibledata,FederatedLearning(FL)technologyiswidelyusedinthemodel
trainingprocess.Cross-devicefederatedlearningmainlyinvolvesmultipledeviceclient
nodes(hereinafter:devicenodes)collaboratingtotrainglobalmodelswithoutsharing
privatedata.However,inthecross-devicefederatedlearningscenario,thedevicenodes
usuallyhavedifferencesingeographiclocations,annotationcapabilities,securitylevels,
etc.,whichl