“学海拾珠”系列之二百三十:“知识”嵌入型深度强化学习在多元资产配置中的应用.docx
证券研究报告
证券研究报告
正文目录
引言 4
背景 5
采用基于规则的资产配置模型 5
成熟的强化学习算法 5
SAC算法 6
DPG和DDPG算法 7
方法论 8
问题定义 8
数据采集与预处理 8
模型设计 9
基于规则的模型 9
模仿学习 12
导师-学生模型 12
DDPG-SAC混合模型 13
动作调整模块 13
引导噪声注入网络 13
实证结果 14
5 结论 19
风险提示: 20
证券研究报告图表目录
证券研究报告
图表1文章框架 4
图表2强化学习框架中基于规则模型扩展的选择与训练架构可视化 9
图表3扩展版本1:扩展的BBA再平衡策略 10
图表4扩展版本2:HALLOWEEN策略支持的扩展BBA 11
图表5基于规则的资产配置扩展策略的业绩比较 11
图表6资产池在训练阶段由模型选择 14
图表7模型性能提升结果 15
图表8EXT2型学生模型(深色)与导师模型(红色)的对比 16
图表9EXT2B型学生模型(深色)与导师模型(红色)的对比 17
图表10EXT1型学生模型(深色)与导师模型(红色)的对比 17
图表11EXT1A型学生模型(深色)与导师模型(红色)的对比 18
图表12EXT2型学生模型(左图)与导师模型(右图)资产配置记录对比 19
引言
图表1文章框架
华安证券研究所整理
华安证券研究所整理
资料来源:随着机器学习(尤其是深度学习)在解决复杂现实问题(如机器翻译和图像分类)中展现出的卓越性能,各类创新方法正被逐步融入精密投资策略的构建中。这些计算技术已广泛应用于投资的多个维度,涵盖市场信号处理、动态资产配置、价格预测及金融情绪分析等领域。Tsantekidis等人利用长短期记忆网络(LSTM)从高频市场数据中提取买卖信号,实现了前瞻性操作。该研究证实,相较于支持向量机(SVM)和多层感知机(MLP),LSTM模型在信号预测方面具有更优表现。Zhang等人则提出一种基于在线梯度下降法的资产配置权重分配方法,并证明该策略在理论层面可匹配或超越最优静态资产配置策略的表现。
资料来源:
然而,现有投资组合优化研究中,尽管已整合多种机器学习方法,但大量研究仍难以证明策略的持续长期有效性。此类研究的一个共性特征是依赖时间跨度有限的数据集,通常不足五年:例如1年、2年,或3-4年。尽管这些工作有效验证了机器学习模型在投资组合管理中的短期价值,但缺乏证据表明此类策略能在重大金融动荡期(如1997年亚洲金融危机、2008年次贷危机及2021年新冠疫情冲击)中保持性能稳定性。这种时间维度的局限性,可能难以充分建立个人投资者的信心——尤其对于该技术熟悉度较低的群体,从而潜在阻碍由智能投顾推荐的投资管理技术的广泛采纳。
证券研究报告此外,部分研究在构建投资组合选择模型时,仅聚焦于特定资产类别子集(通常限于某类股票),以此定义可选资产池。尽管这些研究在限定资产范围内取得了良好
证券研究报告
投资表现,但此类狭窄的资产选择范围可能难以确保投资组合管理的稳定性——尤其是在市场条件预示或已导致原有利好趋势逆转时。再者,现代智能投顾方法的不透明性,常因其算法缺乏直观可解释性而阻碍个人投资者与机构决策者的信任。
为应对上述挑战,文献提出一种融合改进的透明化研究框架,该框架继承并优化了现有的基于规则(rule-based)的资产配置模型,同时引入深度强化学习(RL)算法进行精细化调优。本研究采用的规则模型包括进攻性资产配置(BoldAssetAllocation,BAA)和防御性资产配置(DefensiveAssetAllocation,DAA)。此类模型以战略性调整著称,即当资产动量(通过比较当前价格与历史移动平均价及短期历史收益率生成信号)显示风险上升时,主动撤离风险市场。通过借鉴现有模型在可信度与可解释性方面的优势,本研究提出的方法进一步利用先进深度强化学习算法,显著提升了所选策略在投资组合中的执行效能。
文献主要贡献如下:
提出高性能的长期动态投资组合选择模型
创新性地构建了现有规则型投资组合选择策略的仿效模型框架,随后通过深度强化学习(RL)混合扩展优化其可信度与可解释性。这是首次实现从成熟规则型投资组合选择模型的知识迁移,并集成深度强化学习先进扩展进行性能增强的研究。
提出SAC-DDPG混合RL模型的新型扩展
本在DDPG框架基础上引入SAC特性(如双评估减少偏差、灵活调整决策-评估模型更新频率),形成混合扩展模型。同时创新性地加入高斯噪声注入器和引导噪声注入网络,显著区别于现有