近几年来,医疗机构的数字化进程明显加快,机构内的信息系统越来越多、电子病历不断普及、各方面业务的数字化基本实现……与之相伴随而来的,是海量待挖掘应用的数据。
艾瑞咨询发布的《2022年中国医疗信息化行业研究报告》指出,现阶段我国整体医疗数据应用水平较低。三级医院具备基础的数据资源整合和应用能力,但对于数据进一步的分析处理能力还有待加强;而三级以下医院超过半数未开展对于医疗数据的应用业务,且整体应用能力较之三级医院有较大差距。
医疗数据应用难,成为了横隔在医疗机构数字化进程中的一道难题。
一、为何医疗数据应用难?
1. 医疗大数据本身复杂
医疗健康大数据主要可分为四大类:
诊疗辅助类:包括亚健康及患病人群通过医疗机构、第三方检验机构或网络平台参与病情的咨询、预约、诊断、治疗等过程所产生的医疗数据。
健康监测类:指基于移动物联网对个人身体体征及日常行为进行监测的生命体征类数据,常被应用于慢性病患者的自我管理。
公共卫生类:主要指区域性的医疗服务平台、公共卫生信息系统等产生的医疗数据。
定向生物医学类:主要是关于新药品研发、生物标本和基因测序的信息,多应用于个性诊疗、精准医疗、临床药物实验等医学研究。
由于这4类数据来源以及作用效果复杂,而且部分医疗数据带有主观性质,医疗信息存在明显的阶段性特征;再加之疾病的发生和发展过程及医学影像、病理等信息有很强的时间维度属性,床旁监护等仪器产生的数据也具有很强的时效性;信息孤岛、信息烟囱及疾病的多发性常导致医疗数据存在大量垃圾数据,如常见病病情描述、慢性病患者的重复性检查等,造成了医疗数据的冗余……
这些医疗大数据的典型特性也为其治理应用加大了难度。
2. 医疗数据孤岛化严重且缺乏标准体系
健康界研究院发布的《中国智慧医疗2021十大发展趋势预测》报告中指出,当前智慧医疗发展中,亟待需要破解院内及院间的互联互通实现难、数据质量低两个关键技术难题。
由于信息系统技术规范、基础信息数据标准的不统一和缺失,直接导致了医疗数据质量低的问题,如数据不完整,医疗记录有断点;信息用自然语言描述,自动化分析处理困难等,都导致这些数据无法最大化利用。
且医院内部系统集成受制于医院系统多元异构,医疗数据普遍不能互通互认,这也加剧了医疗行业的“数据孤岛”现象,数据跨平台不能完全集成、互联互通及共享,数据价值难以得到较大程度发挥。
然而,作为医疗机构高质量发展的关键要素,无论是智慧医院建设,还是信息化标准建设,都离不开对大数据的应用。而要破解医疗机构数据应用难题,就需要从源头解决问题,通过数据治理,让数据从不可控、不可用、不好用到可控、方便易用且能赋能业务。
二、医疗机构如何做好数据治理?
医疗机构进行数据治理的过程,就是对其数据资产进行管理和控制,支撑并保障数据被安全高效地交换与应用的过程。
下图是可参考的医疗机构数据治理体系。我们接下来主要从6个核心环节来详解医疗机构如何做好数据治理。
1. 环节一:设立数据治理组织结构
设计健全的数据治理组织结构,是全面开展数据治理工作的基础。
医疗机构需要成立专门的数据治理或数据管理部门,完成流程和规范制订、数据质量保证和质量控制、流程审批等工作,并对数据使用方和IT设施建设方进行管理。
目前,诸多医院已经专门成立了大数据部门承担这项工作,也有医院将这项工作放在信息科或病案管理室。
2. 环节二:制定数据相关流程规范
制定清晰的数据相关流程规范,有助于帮助实现以下目标:数据有明确和准确的定义;数据有明确的责任方;数据有清晰的存储方式与合理的时间期限;数据加工方法明晰;数据访问方式与控制明确;数据内容符合标准要求与质量要求。
医疗机构的数据规范,主要从下面这三个方面来制定。
1)信息规范
信息规范包含隐私、数据权限管控规范和质量评估规范等。医疗机构需重点关注这一部分规范的建设,保障医疗数据合规。
2)数据规范
数据规范包括不同业务系统,如电子病历数据规范、医院信息系统数据规范。对于数据整合过程和整合后的系统来说,需要主数据和元数据规范以及相关的数据质量规范。
3)流程管理规范
流程管理规范规定了何人在何种应用场景下,通过何人的审批可以操作何种类型的数据。
相比数据采集、加工与存储的流程,数据使用流程的制度管理更为重要,比如何种职责的科室和医生在什么情形下可以导出数据、数据能否离院、应由哪一级来审批决定,这些都需要具体规定。除管理规范外,不同角色的人员如何协作互动完成既定的工作,也可通过制定流程支撑规范实现。
3. 环节三:搭建数据标准体系
要保证医疗机构各业务部门、系统间的数据的规范性、流通性和共享性,就要搭建统一的数据标准体系。
数据治理相关标准分为基础性和应用性标准,包括数据定义与分类(元数据)、主数据、参考数据(数据字典)、数据模型、管理与技术类、质量评估类等内容。数据治理工作组成员以及业务组人员可参考已有标准,并与现有医疗系统、业务流程相结合,开展医疗健康大数据标准体系的建立、实施、修改等工作。
目前,我国针对医疗大数据的相关技术标准正在逐步建立,国家卫生健康委员会相继出台了多项管理制度,如2018年颁布的《关于印发大数据标准、安全和服务管理办法(试行)的通知》国卫规划发[2018]23号,《关于印发全国医院信息化建设标准与规范(试行)的通知》国卫办规划发〔2018〕4号,《国家卫生健康委办公厅关于印发全国医院数据上报管理方案(试行)的通知》国卫办规划函〔2019〕380号等文件,在医疗大数据采集、加工、存储共享等方面进行了规范,充分发挥了标准化在医疗数据治理、应用和发展过程中的引领作用。
4. 环节四:元数据管理
针对医院信息系统中存在的数据模式描述文档不全、系统之间数据关联不清晰、系统值域标准不统一等问题,进行元数据管理,是获取业务系统中数据的含义,辅助数据理解,增加分析的敏捷的重要手段。
与其他领域相比,医疗领域的元数据规范相对比较成熟。
如原卫生部颁布的《国家卫生计生委办公厅关于印发住院病案首页数据填写质量规范(暂行)和住院病案首页数据质量管理与控制指标(2016版)的通知》(国卫办医发〔2016〕24号)、《病历书写规范》(卫医政发〔2010〕11号)、《电子病历基本规范》(卫医政发〔2010〕24号)、《卫生信息基本数据集编制规范》(WS 370-2012)、《卫生管理基本数据集》(WS374-2012)与《电子病历基本架构与数据标准》(卫办发〔2009〕130号)等。
在数据值编码标准方面,国际上有疾病分类编码ICD-10、手术操作编码ICD-9以及SNOMED术语库,国内有国家标准《卫生机构(组织)分类与代码表》(WS2182002)、《社会保险药品分类与代码》(LD/T90-2012)和《中医病证分类与代码》(GB/T15657-1995)。
然而,在使用过程中,这些标准会根据应用进行不同程度的删减和扩充,甚至出现错误的使用。因此,基于标准建立一个元数据管理系统,可方便地在标准上扩充,并可以关联不同的应用。
元数据管理系统主要由采集层、标准层、分析层和应用接口层组成。采集层从各种医疗信息系统内获取元数据,查看元数据的变化和更新。标准层保存了元数据的标识信息、内容信息与模式信息等。由于医院信息系统各异,标准层实现了将元数据映射到标准集合以及将不同的元数据进行互操作的功能。
分析层主要提供了对元数据的管理、分析与查询。元数据库与数据源存在对应关系,当用户通过统一入口提交查询服务时,可以根据元数据库提供的特征找到对应的信息资源,重组之后呈现给用户。因此,应用接口层除了提供元数据访问的限制和保护外,同时还服务于各个应用程序。
5. 环节五:主数据管理
在构建主数据管理库时,首先需要从多个异构的业务子系统中以ETL的方式抽取关键数据,然后,利用元数据库对其中的编码、描述进行标准化。
接着,由于多个业务系统的数据可能不一致,还需要通过匹配算法完成对数据的错误消除和信息融合。对于匹配不到的孤立信息,要加以监控跟踪,进行人工处理。同时,以增量学习的方式不断改进匹配算法。最后,将归整好的主数据信息存入主数据库。
医疗数据的主数据主要有病人信息和医生信息两类。
以病人信息为例,病人的出生年月、性别等信息在各系统中都有,但由于医院信息系统是从身份证读取的信息,因而相比其他系统采用人工录入的方式来说更准确。
然而,病人的血型信息通常在实验室信息管理系统中是更准确的,甚至可能在门诊/急诊工作站中也没有这些信息。通过主数据管理系统,可以从各系统中分别获取信息,根据可靠性、一致率等进行信息校验融合,最后形成该病人的完备信息,然后再将完备信息下发到各业务系统。
此外,在多家医院之间实现主数据共同管理之后,还可以打通医院之间的信息壁垒。若患者在A医院诊断出患有某慢性病,当他下次去B医院就诊时,医生也能快速得知该患者的这个信息,从而使就诊更高效、更准确。
6. 环节六:数据质量管理
医疗数据质量问题主要来源于3个方面。
原始信息采集有误差。在医疗系统内数据采集主要通过手工方式录入,在医生或护士输入信息的过程中,可能会有意或无意地将数据错误引入系统。
数据融合过程发生问题。在对不同来源的数据进行融合时,数据格式和语义可能会有误差或不一致,导致融合结果有错。
与数据的应用场景不匹配。例如,如果要进行病例统计,现有临床电子病历数据就能满足统计场景的需求。但如果要做大肠癌疗效分析,现有临床电子病历数据就难以满足分析场景的要求,还需补充病理数据。
所以,对数据质量的管控,主要从三个方面来进行:数据质量实时监控、数据质量评估以及数据自动修正。
1)数据质量实时监控
主要针对从业务系统抽取的或是从外部传送的接口数据,通常从及时性、有效性和完整性等几个指标监测接口内容本身的数据质量问题,还需要对采集程序进行监控,如接口采集程序是否正常启动、是否正常结束等。
2)数据质量评估
是指对融合后的数据进行质量评估。首先从确定评价对象和范围着手,然后选取数据质量维度及评价标准,确定质量测度及评价方法,之后按照配置的评估指标执行评估,产生权重化的评估结果,最后生成质量结果和报告。
3)数据自动修正
是指对于有错误或不一致的数据,部分数据可以进行自动化的探测和更正。例如,时间的表达可以是DD/MM/YY,也可以是YY/MM/DD,可以通过智能算法探测原始系统的表达方式,制定映射规则,实现日期格式的一致性。
三、小结
经过30多年医疗信息化建设,医疗机构的数据量及其复杂性连年攀升,医疗行业的关注焦点已经从信息系统建设延伸到了数据资源管理和利用。
而要实现数据资源的有效利用,数据治理是关键环节。只有做好数据治理,让数据应用有效支撑医院发展,才能进一步提高医院管理水平,实现数据对医疗业务发展的价值赋能。