小米语音识别端到端系统升级之路.pptx
准确率提升的同时服务容量翻倍--小米语音识别端到端系统升级之路范利春小米集团技术委员会 AI实验室
目录小米小爱业务中的语音识别方案端到端语音识别系统升级中的极致的响应速度和准确率优化GPU使用效率提升的动态Batch优化GPU使用效率提升的半精度浮点推理优化
背景小米公司的印象
背景小米公司的印象
背景小米6.99亿链接到IOT平台的智能设备包括小米汽车、手机、音箱、电视、手表、手环、生态链产品等涵盖了6161款支持语音交互的产品「人车家全生态」
背景语音识别:小爱语音交互的入口语音识别ASR唤醒KWS语义理解NLP结果满足SKILL语音合成TTS语音文字小爱同学
背景如何降低云端服务成本?如何提升语音识别的准确率?降本增效识别内容覆盖60+个垂域每天识别约2.7亿条来自小爱智能助手的语音大模型时代,用户对智能助手的预期提升说法多种多样,更偏口语化
P1.小米小爱业务中的语音识别方案小米语音方案
传统语音架构声学训练语言训练训练复杂声学数据语言数据声学模型语言模型准确率低解码算法语音建模帧率高成本高昂解码算法相对复杂小米语音方案
端到端语音架构联合建模准确率高节省算力离线部署传统语音架构小米语音方案
encoder-decoder结构的端到端语音识别小米语音方案建模粒度大帧率低时序建模有大量Blank可以跳过
P2.端到端语音识别系统升级中的极致的响应速度和准确率优化关键实践1
关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别
关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECHRECOGNITION》《SUBLLM:ANovelEfficientArchitecturewithTokenSequenceSubsamplingforLLM》
关键实践1:极致的响应速度和极致的性能流式端到端识别Fig.1Fig.2性能平衡具体方案:Chunk模式解码效率具体方案:Input/output
关键实践1:极致的响应速度和极致的性能/坑1/ 尖峰滞后
关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象尖峰滞后现象解决方案(a)解决方案(b)《TrimTail:Low-LatencyStreamingASRwithSimplebutEffectiveSpectrogram-LevelLengthPenalty》
关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象解决方案(c)解决方案(d)《DELAY-PENALIZEDTRANSDUCERFORLOW-LATENCYSTREAMINGASR》
关键实践1:极致的响应速度和极致的性能/坑2/ 内置语言模型
关键实践1:极致的响应速度和极致的性能端到端系统下的热词注入米家个人设备管理 座舱显示屏上的内容
关键实践1:极致的响应速度和极致的性能基于syllable建模,提升热词能力建模粒度大音节建模
语音识别解码架构图关键实践1:极致的响应速度和极致的性能
速度和极致性能优化小结关键实践1:极致的响应速度和极致的性能Zipformer算法尖峰前移个性化识别手机、音箱、电视句错相对下降20%
P3.GPU使用效率提升的动态Batch优化关键实践2
关键实践2Batch推理优化GPU交互:线程内串行,线程间并行,每个线程独享一个流T4服务器:高峰时段CPU14%+GPU80%特征提取AM[2]推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread1:threadN:……
关键实践2Batch推理优化特征提取AM推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread1:threadN:………83462112345678123人满发车超时发车
P4.GPU使用效率提升的半精度浮点推理优化关键实践3
关键实践3为什么使用半精度浮点NVIDIAT4高通芯片
关键实践3半精度浮点的范围/wiki/Half-precision_floating-point_formatfp16的取值范围是5.96e-8~65504溢出精度损失
关键实践3从模型层面解决溢出的模块LayerNorm替换成L1LayerNorm《TowardsFully8-bitIntegerInferencefortheTransformerModel》
关键实践3从模型层面解决