CESA-2024《医疗云数据资源汇聚服务能力要求》.pdf
T/CESAXXXX-2024
医疗云数据资源汇聚服务能力要求
1范围
本文件确立了医疗云数据资源汇聚服务能力框架,包括数据采集、数据装载、数据比对和服务管理。
本文件适用于:
a)为医疗行业用户选择医疗云数据资源汇聚服务提供参考;
b)为提供医疗云数据资源汇聚服务能力的厂商提供设计、实现依据;
c)为第三方测试机构开展医疗云数据资源汇聚服务测评提供依据。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
本文件没有需要界定的术语和定义。
4缩略语
下列缩略语适用于本文件:
AES:高级加密标准(AdvancedEncryptionStandard)
CPU:中央处理器(CentralProcessingUnit)
CSV:逗号分隔值(Comma-SeparatedValues)
DDL:数据定义语言(DataDefinitionLanguage)
DES:数据加密标准(DataEncryptionStandard)
DML:数据操作语言(DataManipulationLanguage)
HA:高可用性(HighAvailability)
HTML:超文本标记语言(HyperTextMarkupLanguage)
MPP:大规模并行处理(MassivelyParallelProcessing)
SQL:结构化查询语言(StructuredQueryLanguage)
RSA:罗纳德-萨莫尔-阿德曼加密算法(Rivest-Shamir-Adleman)
SM2:商用密码算法2(CommercialCryptographicAlgorithm2)
SM4:商用密码算法4(CommercialCryptographicAlgorithm4)
5数据资源汇聚服务能力框架
数据资源汇聚服务将数据源端的结构化数据、半结构化数据、非结构化数据采集过来,经过处理,
存放到数据目标端,形成统一数据资源库。数据源端可以是国内外主流数据库、MPP数据库、消息队列
1
T/CESAXXXX-2024
数据库、NoSQL数据库等,数据源端存放的非结构化数据包括办公文档、文本、图片、HTML、报表、音
视频等。数据资源汇聚服务能力包括数据采集、数据装载、数据比对和服务管理,具体见图1。
a)数据采集是指采集数据源端的全量数据和增量数据。
1)数据源侵入要求是指在进行数据采集时,对源端数据库的操作侵入和对源端数据库所在服
务器的资源占用。
2)全量数据采集是指采集数据源端已存在的数据。
3)增量数据采集是指采集数据源端新增加的数据。
4)采集策略管理是指对源端数据采集策略的配置,例如按照库、模式、用户、对象等不同维
度进行数据采集。
5)性能调优是指数据采集过程中,通过参数配置等方式优化数据采集性能。
6)高可用性是指数据采集功能自身的高可用性,以保证数据采集的连续性。
7)安全性是指在数据采集过程中,所涉及到的文件存储和网络传输的安全性。
8)资源使用限制是指数据采集功能自身的资源使用限制,包括CPU、内存、网络带宽资源限
制。
b)数据装载是指采集到源端数据后,进行数据转换,将转换后的数据写入到数据目标端。
1)数据转换是指根据目标端数据库的要求将源端数据进行转换。
2)目标端写入是指将数据写入到目标端数据库,完成数据入库。
c)数据比对是指将源端数据写入到目标端后,对源端数据和目标端数据进行比对,确保数据的正
确性和一致性。
1)比对方式包括全量比对、增量比对、不停机比对等。
2)比对算法包括条数比对、详细比对、大表拆分比对等。
3)异常处理是