SUBLLM新架构:文本下采样机制革新大语言模型效率.docx
SUBLLM新架构:
文本下采样机制革新大语言模型效率
王全东小米大模型团队
演讲嘉宾
王全东
小米大模型团队大模型高级算法工程师
中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级
工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。
1.长文本模型的技术挑战
目录CONTENTS2.
目录
CONTENTS
3.主要实验结果
4.分析与讨论
5.总结与展望
PART01
长文本模型的技术挑战
长文本模型的技术挑战
长文本需求旺盛
…
…
长文本模型的技术挑战
长文本模型结构:
DecoderonlyTransformer结构:Llama类似结构,attention的平方复杂度
长文本模型的技术挑战
训练成本高:attention的平方复杂度
32K窗长8k窗长1M窗长200K窗长
32K窗长
8k窗长
1M窗长
2~15Ttokens5~10Btokens5~10Btokens
2~15Ttokens
5~10Btokens
5~10Btokens
主要优化点
长文本模型的技术挑战
模型窗长扩展方法:数据方向,训练成本不高
1.DataEngineeringforScalingLanguageModelsto128KContext
长文本模型的技术挑战
模型窗长扩展方法:位置编码方向,训练成本不高
2.YaRN:EfficientContextWindowExtensionofLargeLanguageModelsNTK-by-parts+温度控制
长文本模型的技术挑战
模型窗长扩展方法:位置编码方向,训练成本不高
3.PoSE:EfficientContextWindowExtensionofLLMsviaPositionalSkip-wiseTraining
长文本模型的技术挑战
训练成本主要在8k预训练阶段:attention的平方复杂度
32K窗长8k窗长1M窗长200K窗长
32K窗长
8k窗长
1M窗长
2~15Ttokens5~10Btokens5~10Btokens
2~15Ttokens
5~10Btokens
5~10Btokens
主要优化点
长文本模型的技术挑战
DecoderonlyTransformer长文本模型训练infra开发
1.DeepSpeedUlysses:
优势:对Attention的实现不敏感,适合各种attention方法
劣势:序列并行度不能超过头数
长文本模型的技术挑战
DecoderonlyTransformer长文本模型训练infra开发
2.Ring-attention:“大号”的flashattention
优势:并行度的扩展性较好
劣势:对Attention变种不友好,eg.SparseAttention
长文本模型的技术挑战
推理成本高:attention的平方复杂度
推理速度角度,200k比20k贵28倍,比2k贵112倍
长文本模型的技术挑战
其他长文本模型结构:
1.Infini-Transformer:长期压缩记忆和局部因果注意力attention
Infini-Transformer模型结构byGoogle,2024
长文本模型的技术挑战
其他长文本模型结构:
2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进
MEGALODON模型结构byMeta,2024
长文本模型的技术挑战
加速方法很多备受关注SUBLLM应运而生
PART02
SUBLLM架构
SUBLLM架构
目标:
1.开发一种优化资源使用的架构,同时保持模型能力不变。
2.区分重要token和不重要token,重要token占主要算力
3.兼容现有atte