基于博弈论和强化学习的联邦学习激励机制研究.pdf
摘要
跨筒仓联邦学习是一种重要的分布式机器学习范式,它在隐私保护、数据安全
方面有着独特的优势,能被广泛地应用在如智能工厂、医院、银行等场景。由于网
络的分布式特征,在跨筒仓联邦学习中如何激励组织积极地合作训练全局模型是一
个重要的研究方向,一方面不同组织训练成本和全局模型的精度需求不同,且组织
的计算和通信资源的稀缺性、私有性和异质性等特点导致组织间难以合作训练。另
一方面在训练过程中组织可能因为全局模型精度边际效用降低而对于使用多少数据
量难以抉择,这会导致各组织在训练过程中可能不愿意贡献过多自身数据来参与训
练。为应对上述挑战本文研究了区块链赋能的跨筒仓联邦学习货币转移激励机制,
以及多智能体强化学习自适应数据贡献策略问题,具体工作如下:
1
()本文研究区块链赋能的跨筒仓联邦学习激励机制,考虑到跨筒仓联邦学习
中组织的异质性以及公共产品特性,以及组织之间的策略互动具有完全信息的特征,
提出一种基于博弈理论的社会福利最大化货币转移激励方案,证明了博弈的纳什均
衡存在且唯一。最后,提出一种分布式激励算法以最大化组织的社会福利。在使用
MNIST数据集进行仿真时,研究发现该机制与算法有效达到了纳什均衡,说明在维
护组织间合作的同时,可以有效提升整体的社会福利。特别是当各组织更加重视模
型准确度时,通过本文提出的机制与算法,能够促进更大的共同利益。
2
()本文研究了基于多智能体强化学习的自适应数据贡献策略,组织在参与跨
筒仓联邦学习时,对于过程中使用多少数据量训练本地模型能够最大化自身收益难
以抉择,为此我们设计一种基于多智能体最近策略优化的强化学习算法,结合了策
略梯度和差分神经计算机来解决组织在动态环境中如何决策贡献数据资源。输入的
数据量被视为精度的函数,各组织学习与这种环境状态进行交互,以近似最佳的数
据贡献策略。此外为鼓励组织贡献更多数据参与训练我们设计了奖励再分配机制,
我们利用博弈论来分析组织之间的交互,证明了组织之间的相互作用是一种加权潜
在博弈,确保了纳什均衡的存在。最后实验结果表明,我们的方法在动态环境中实
现了自适应贡献策略,在贡献最佳数据量的同时有效提高了组织的长期收益。
关键词:跨筒仓联邦学习;激励机制;非合作博弈;多智能体强化学习
I
ABSTRACT
Cross-silofederatedlearningisanimportantdistributedmachinelearningparadigm
thathasuniqueadvantagesinprivacyprotectionanddatasecurity,andcanbewidely
appliedinscenariossuchassmartfactories,hospitals,andbanks.Duetothedistributed
characteristicsofnetworks,howtomotivateorganizationstoactivelycooperateintraining
globalmodelsincrosssilofederatedlearningisanimportantresearchdirection.Onthe
onehand,differentorganizationshavedifferenttrainingcostsandaccuracyrequirements
forglobalmodels,thescarcity,privacy,heterogeneityofcomputingandcommunication
resourcesamongorganizationsmakeitdifficultfororganizationstocooperateintraining.
Ontheotherhand,duringthetrainingprocess,organizationsmayhavedifficultydeciding
howmuchdatatousedue