文档详情

航天智能通信原理与应用 课件 第6章 基于人工智能的卫星资源调度.pptx

发布:2025-04-13约1.97千字共16页下载文档
文本预览下载声明

基于人工智能的卫星资源调度刘丹谱

基于深度强化学习的跳波束系统资源调度策略02资源调度基本原理01

一、资源调度基本原理卫星资源:卫星通信系统中用于传输数据和支持通信服务的各种可分配资源功率资源时间资源时间……频率资源f/GHz2L10.548121826HFSCKuKaVW空间资源波束缓存资源…存储容量磁盘阵列计算资源算力服务器……

一、资源调度基本原理

一、资源调度基本原理通信资源:功率,带宽,波束等计算资源:算力大小存储资源:存储空间网络资源:多维异质空间节点高动态运动网络拓扑频繁变化网络拓扑:动态时变网络结构:多元异构空间网络立体多层次,空间跨度大节点种类繁多,时空行为复杂不同部分在拓扑稳定性、网络规模、链路质量等方面差异巨大卫星资源调度面临的挑战采用基于人工智能的卫星资源调度方案是未来技术发展的重要趋势

基于深度强化学习的跳波束系统资源调度策略02资源调度基本原理01

N:卫星可以覆盖的地理小区数量K:卫星一个时隙可支持的并行点波束数量跳波束图案:单时隙内所有点波束照射小区所组成的图案时隙:跳波束图案保持不变的最小时间单位二、基于深度强化学习的跳波束系统资源调度1.跳波束卫星通信系统资源调度问题:(1)每个时隙的跳波束图案?(2)分配给每个点波束的发射功率?(3)分配给每个点波束的频率资源?

二、基于深度强化学习的跳波束系统资源调度2.系统模型??????????

二、基于深度强化学习的跳波束系统资源调度3.优化目标:平衡长期系统吞吐量和小区间时延公平性系统长期吞吐量?小区间时延公平性?功率分配带宽分配跳波束图案???卫星总功率约束波束最大功率约束系统总带宽约束带宽分配限制图案设计限制NPHard问题,难于求解深度强化学习(DRL)

二、基于深度强化学习的跳波束系统资源调度4.基于DDQN的单智能体DRL资源调度?动作:跳波束图案、带宽分配(固定功率)奖励函数:业务吞吐量和时延公平性的加权差双深度Q网络(DDQN):引入与Q网络完全相同的Target-Q网络,每隔一段时间将Q网络参数更新到Target-Q网络中,以保证Q网络训练的稳定性,以更好地实现收敛?

二、基于深度强化学习的跳波束系统资源调度多波束系统参数参数值小区数7波束数2系统带宽500MHz频率块数量2路径损耗波束1:213.1dB波束2:214.2dB发射天线增益波束1:39.2dBi波束2:38.4dBi噪声功率谱密度-171.6dBm/Hz业务到达率100~300Kbit均匀分布业务更新周期1时隙(训练)200时隙(测试)单时隙持续时间2ms(参考DVB-S2X)队列最大存活时间40个时隙奖励权重因子0.5吞吐量收敛曲线平均时延收敛曲线系统吞吐量随业务需求变化关系时延公平性随业务需求变化关系4.基于DDQN的单智能体DRL资源调度P-BH:轮询跳波束R-BH:随机跳波束

二、基于深度强化学习的跳波束系统资源调度5.基于DDQN的多智能体DRL资源调度(MADRL)2K个智能体:分别为每个波束分配服务小区和带宽???????所有智能体共享全局状态和全局奖励以加强智能体间的合作?动作空间:奖励:业务吞吐量和时延公平性的加权差

二、基于深度强化学习的跳波束系统资源调度5.基于DDQN的多智能体DRL资源调度(MADRL)R-BH:随机跳波束P-BH:轮询跳波束G-BH:贪婪算法GA-BH:遗传算法CKLCQ-BH:时延公平跳波束DF-BH:最大K值策略小规模资源调度场景随着业务量上升,多智能体在吞吐量与时延公平性方面与单智能体的性能差距有所增加小区数7波束数2频率块数量2大规模资源调度场景小区数19波束数4频率块数量4

二、基于深度强化学习的跳波束系统资源调度6.基于迁移学习的单智能体DRL资源调度(TL-DQN)?动作:跳波束图案、功率分配(固定带宽)奖励函数:业务吞吐量和时延公平性的加权差迁移学习:减少新接入卫星重新训练的成本,引导目标卫星快速收敛目标卫星更新策略源卫星策略目标卫星策略??策略更新方式:随着学习时间的推移,源卫星策略的影响逐渐变小如何使新接入的卫星快速完成训练?两层卷积+三层全连接业务特征提取DQN网络

二、基于深度强化学习的跳波束系统资源调度6.基于迁移学习的单智能体DRL资源调度(TL-DQN)不同迁移率下TL-DQN的收敛性能RRS:轮询调度MQF:最大队列优先时隙分配情况图系统吞吐量与业务到达率关系图包平均时延与业务到达率关系图

TheEnd.ThankYou!

显示全部
相似文档