《DNN内部结构》课件.ppt
*************************************深度强化学习状态感知代理观察环境状态行动选择基于策略执行动作获取奖励环境返回即时反馈策略更新优化长期累积奖励深度强化学习(DRL)结合深度学习和强化学习,使智能体通过与环境交互学习最优策略。Q学习是值函数方法的代表,DeepQ-Network(DQN)通过深度网络近似Q值函数,引入经验回放和目标网络解决不稳定性问题。DQN在Atari游戏中取得突破性进展,但主要适用于离散动作空间。策略梯度方法直接优化策略函数,适用于连续动作空间。REINFORCE算法是最简单的实现,但方差大、采样效率低。近年来,近端策略优化(PPO)和信任区域策略优化(TRPO)通过限制策略更新步长提高稳定性。Actor-Critic方法结合值函数和策略梯度,既评估动作价值又直接优化策略。异步优势Actor-Critic(A3C)和软Actor-Critic(SAC)分别通过并行训练和最大化熵增强了算法性能。生成对抗网络(GAN)生成器生成器网络G接收随机噪声z作为输入,生成合成数据G(z)。其目标是生成逼真样本,尽可能欺骗判别器。生成器通常使用转置卷积或上采样层将低维潜在空间映射到高维数据空间。随着训练进行,生成器逐渐学习数据分布,能够产生高质量合成样本。判别器判别器网络D接收样本(真实或生成的)作为输入,输出样本来自真实数据集的概率D(x)。其目标是准确区分真实样本和生成样本。判别器通常是标准卷积神经网络(图像任务)或其他适合特定数据类型的分类器。高质量真实样本应获得接近1的分数,而生成样本得分接近0。训练过程GAN训练是一个极小极大博弈过程:判别器最大化真假样本分类准确率,生成器最小化判别器正确分类的能力。数学上表示为min_Gmax_DE[logD(x)]+E[log(1-D(G(z)))]。这种对抗训练使生成器不断改进,直到判别器无法区分真假样本,意味着生成分布接近真实分布。自编码器结构设计自编码器是一种无监督学习模型,由编码器和解码器两部分组成。编码器将输入x压缩为低维潜在表示z=f(x),解码器尝试从潜在表示重建输入x=g(z)。训练目标是最小化重建误差,如MSE(x,x)。关键设计包括瓶颈层(强制学习紧凑表示)和适当的容量控制(防止简单复制输入)。编码器和解码器通常呈对称结构,如卷积-转置卷积对应。去噪自编码器去噪自编码器(DAE)通过向输入添加噪声,然后学习重建无噪声版本,提高表示的鲁棒性。它将输入x人为损坏为x?(如添加高斯噪声、随机遮蔽部分输入),然后训练网络从x?重建原始x。这迫使网络学习数据的内在结构而非记忆输入,增强了特征提取能力。DAE广泛应用于图像去噪、异常检测和特征学习预训练。变分自编码器(VAE)变分自编码器将自编码过程视为概率模型,编码器输出潜在变量z的后验分布(通常是高斯分布的均值和方差)而非确定性值。训练目标包含重建误差和KL散度正则项,后者鼓励潜在分布接近标准正态分布。这种设计使VAE成为生成模型,能够从潜在空间采样并生成新样本。VAE的潜在空间具有良好的插值性质,便于生成具有特定属性的新数据。图神经网络(GNN)图卷积网络图卷积网络(GCN)是最基础的图神经网络,通过图结构传播和聚合节点信息。与传统CNN在规则网格上操作不同,GCN定义在任意图结构上。其核心是消息传递机制:每个节点更新其表示,结合自身特征和邻居信息。数学上,GCN层的更新可表示为H^(l+1)=σ(D^(-1/2)AD^(-1/2)H^(l)W^(l)),其中A是邻接矩阵,D是度矩阵。图注意力网络图注意力网络(GAT)通过注意力机制增强GNN,为不同邻居分配不同权重。这比GCN的固定权重更灵活,能够自适应地聚焦重要连接。GAT首先计算注意力系数,表示节点间的重要性,然后对邻居特征进行加权聚合。多头注意力机制进一步稳定学习过程,允许同时关注不同方面的图结构。GAT特别适合异质图和节点重要性差异大的场景。动态图学习动态图学习处理随时间演变的图结构,如社交网络互动、交通流量变化等。这类模型需要同时捕捉空间(图拓扑)和时间(演化模式)依赖关系。常用方法包括时空图卷积网络(STGCN),结合GNN和RNN/CNN处理时序信息;以及连续时间动态图网络,如TGAT,引入时间编码标记事件发生时刻。这些模型广泛应用于交通预测、推荐系统和社交网络分析等领域。元学习元学习(学习如何学习)旨在开发能快速适应新任务的算法,解决数据稀缺问题。少样本学习是其主要应用,如5-way1-shot分类只需每类1个样本。与传统方法需大量数据不同,元学习通过