基于知识图谱的智能医疗诊断系统.pdf
基于知识图谱的智能医疗诊断系统
一.科学性
1.研究意义
信息科技经过60余年的发展,已经普及到社会生活的
每一个角落。随着信息技术在国家治理、经济运行的方方面
面的应用,大量的数据随之产生。而互联网技术的爆发式发
展使得近年来产生的数据总量超过了人类以往产生的历史
数据的总和,医疗行业的数据增长幅度尤为突出。
医疗大数据具有巨大的价值,尤其是在临床辅助诊疗和
健康管理方面。医疗大数据已经上升到国家战略,同时也是
全球学术界与产业界竞争的研究热点。如何利用这些医疗数
据,挖掘数据的深层价值,是未来信息科技发展的趋势,也
是医疗大数据技术产生的背景。
本项目利用知识图谱将各种琐碎、零散的医疗信息知识
相互连接,以支持综合型知识检索问答、辅助决策和智能医
疗诊断。精准医学知识与大数据相结合,能够利用庞大的全
人类对疾病的理解和医生的经验形成知识库,让医生能够通
过大数据的信息系统直接根据病人的个体实际情况来对他
们进行针对性的诊断和治疗,辅助医生的诊疗过程,使得普
通医生也能够像最好的资深医生一样为病人提供高质量的
诊疗服务。
本项目结合知识图谱和医疗大数据技术,可以帮助患者
自我评估病情,帮助医生找到最佳治疗方案,提高医生工作
效率和诊疗质量,为慢病患者提供远程指导和干预。
2.医疗大数据的爬取与存储
(1)利用互联网搜寻可靠、权威的医疗数据来源,按照
疾病所属科室利用多线程技术分段爬取全部数据,保证涵盖
全部疾病内容,并在数据爬取过程中,分析数据结构,包括
科室、症状、病因、并发症、治疗、预防等。
(2)针对爬取的数据进行分词,用于后续算法设计,最
后将全部数据结构化存储至本地MySQL数据库。
(3)利用ElasticSearch数据库快速地储存、搜索和分
析海量数据。将MySQL中存储的数据抽取部分部分存入到
ElasticSearch数据库,然后开发相应接口,返回JSON格
式的数据。ES数据库的主要功能:一是用户在输入框输入
症状词时提供实时搜索结果;二是点击部位时搜索到全部相
关症状。
(4)使用Neo4j图形数据库存储一部分结构化的数据,
便于进行算法设计,搭配分词、检索、排除、统计等算法提
升诊断正确率。
3.系统运行流程
本系统需要用户输入个人信息(年龄、性别、职业、提
供的症状词),系统根据用户年龄、性别、症状等个人信息
进行算法分析、统计、排除、排序、得出相关性得分,最后
将算法分析结果反馈给用户。关于算法的设计细节,本申报
书的创新性部分会详细说明。项目的大致流程图如图一所
示:
图一:系统运行流程图
二.创新性
1.研究并实现一种基于知识图谱的智能医疗诊断方法
本项目从互联网爬取了庞大的医疗知识库,总体可以分
为疾病库与症状库,如何分析出疾病与疾病、疾病与症状、
症状与症状的内在联系是本系统设计的难点与核心。基于此
问题,我们研究出了一种基于知识图谱的智能医疗诊断方
法。
1.1医疗知识图谱的构建
知识图谱可以大致概括为节点与关系的组成图谱,非常
有助于本项目对医疗数据的分析与研究。关于知识图谱的节
点设计,我们抽取医疗知识库中的全部症状词与全部疾病词
构成了知识图谱的全部节点,这部分数据也成为了本项目的
医学词典。每个节点都有许多属性,包括科室、症状、病因、
并发症、治疗、预防等,但这些属性都是以长文本的形式存
储,医学命名实体并没有被单独标注区分。前面已经说明,
研究的主要方向是针对疾病与症状的联系,我们利用医学词
典对疾病的症状属性进行分词。由此症状节点与疾病节点有
了直接的关联,此时的节点知识图谱如图二所示:
当每个疾病节点都与它所属的症状或一些并发症进行
了关联之后,相互之间难免出现交叉。以图二所示举例,偏
头痛会导致一系列症状与并发症,这种关系以箭头指向表
示,偏头痛指向丛集性头痛,丛集性头痛又指向症状词头痛,
偏头痛也指向了头痛,各种复杂的疾病、症状关系正是通过
这种复杂的指向关系(也就是知识图谱),进行了清晰的展
示。
1.2智能诊断方法