高质量呼吸音数据库建设及管理规范专家共识(完整版).pdf
高质量呼吸音数据库建设及管理规范专家共识(完整版)
摘要
域,应用AI诊疗新模式和新手段建立快速精准的智能医疗体系是智慧医
疗的重要发展目标。建立标准呼吸音数据库是基于医疗大数据的呼吸系统
疾病辅助诊疗和家庭慢性肺部疾病管理系统研发和应用的基础。为了能规
范建立高质量的呼吸音数据库,提高呼吸音AI研究的效率,促进AI大数
据呼吸音研究的发展,本共识就呼吸音数据库建设,对呼吸音采集设备、
采集流程、数据标准、质控要点、数据库架构和数据安全等内容进行推荐,
为进一步开发AI算法研究奠定基础。
关键词
呼吸音;数据库;高质量;人工智能
肺部听诊是利用听诊器对气流通过气管支气管树产生的声音进行判断的
方法,也是呼吸系统疾病筛查、诊断、评估和随访的重要工具,迄今仍无
可替代。在获取临床症状的基础上增加肺部听诊可以提高诊断的敏感性
在1861年发明的。传统听诊器使用简单便捷,易于获取,医疗成本低,
不依赖大型设备,无辐射,无痛苦,短时间内可以反复听诊。但传统听诊
器也存在一些缺陷,包括呼吸音信息无法记录和保存,分享和交流困难,
无法进行呼吸音持续监测,且呼吸音判别结果需依赖医师的临床经验和听
觉感知能力,具有一定的主观性[3-4]。传统听诊器存在的短板问题严重
阻碍了呼吸系统疾病管理和监测的效能。利用电子听诊器(digital
近年来AI技术的发展日新月异,基于医疗大数据的AI辅助决策技术已经
成为迅速提高诊疗水平和拓展医疗资源的重要手段。数据、算法、算力和
场景是构成AI的四要素,其中在医疗场景的AI研究中,主要依靠临床专
业人员提供高质量的“数据”。AI通过机器学习和神经网络模型,对大量
完成呼吸音标注的声音数据进行快速学习,最终实现呼吸音的自动分析。
呼吸音的自动识别和分类主要分为2步:(1)呼吸音数据的特征提取;(2)
利用提取的特征进行呼吸音的识别和分类[8]。AI在呼吸音领域的发展过
程中,面临的主要问题是缺少可以用于研究算法并对不同算法进行比较的
公共高质量大型呼吸音数据库,也是AI在呼吸音领域发展面临的主要困
境。
上海市医学会儿科分会呼吸学组、福建省医学会儿科分会呼吸学组和江苏
省医学会儿科分会呼吸学组的儿科专家在分析国内外现有的呼吸音数据
库的基础上,结合本领域的工作成果,共同制定《高质量呼吸音数据库建
设及管理规范专家共识》,规范呼吸音采集设备、采集流程、数据标准、
质控要点、数据库架构和数据安全,进而为儿童常见呼吸系统疾病,特别
是下呼吸道感染、支气管哮喘为代表的标准化、规范化诊疗提供新的方法。
1、呼吸音数据库的现状和局限性
呼吸音数据库作为重要诊疗信息的一部分,近年来有了快速发展。尤其是
部分数据呈现开源共享模式,有利于不同数据的比对分析,制定统一标准,
形成高质量数据库。在2017年之前,共有13个开放的公共呼吸音数据库
[8]在临床研究中使用,其中4个是在线存储,9个是书籍附带的光盘资
前者共有50余条儿童呼吸音数据和相关临床资料,每条时长10s;后者
光盘内呼吸音数据总时长为60min。但这些呼吸音数据库的数量和种类比
较有限,最初建立的目的是进行教学培训,因此绝大部分是理想状态的呼
吸音,并不适合用于真实环境中呼吸音数据算法模型的建立。
葡萄牙和希腊的研究团队在2017年共同构建的呼吸音数据库
片段,886个哮鸣音片段和506个同时包含湿啰音和哮鸣音的片段。ICBHI
库也存在局限性,主要包括缺乏健康对照组,且均为单人标注数据,不符
合“金标准”的标注要求,最终会影响数据库的质量。2021年,中国台湾
数量共279例,年龄均大于20岁,来自台湾地区,呼吸音数据共9765
条,每条呼吸音时长15s,共包含湿啰音片段15606个,哮鸣音片段8457
康对照组,其中261例患者的临床信息丢失,呼吸音数据均为单人标注。
根据公共呼吸音数据库的现状,现有的呼吸音数据库存在健康对照组缺乏;
不同DS采集跨信道失配;数据库病例数量少,儿童呼吸音数据数量有限;
呼吸音数据多为单人标注,缺乏质控,不符合“金标准”要求,精准度和
可信度等明显不足,造成现有的呼吸音数据库在质和量方面均有明显缺陷,
制约了AI在呼吸音领域的发展进程[15-16],建立高质量的呼吸音数据
库迫在眉睫,也是AI技术在本领域发展的基础。
2、呼吸音数据库入库数据类型要求
呼吸音AI研究主要在于呼吸音的识别和分类。呼吸音是胸部体格检查的
重要体征,可以快速、准确、客观的反映疾病状态和病情变化,为临床诊
治提供重要的依据。呼