2023医疗大数据白皮书

来源:Boom Health | 发布时间:2023-11-06

导  读

过去十年,国内医疗大数据产业从零开始发展,如今已然初具规模。推动产业高速发展的动力主要分为政策和技术两个层面。

前者为大数据产业基础制度体系指明建设方向,确立指导制度建设责任主体;而技术层面,新兴的大语言模型、生成式AI反哺上游大数据产业发展。多重因素复合之下,医疗大数据产业迎来重大发展机遇。

01 数据基础制度建设即将确定,数据资产化亟待破解

2014年,国家卫计委规划“46312”工程,意在搭好医疗大数据基础设施建设的骨架,将碎片化的“大量医疗数据”转化为规范、可用的“医疗大数据”。基于这一路径,国家层面的数据基础设施基本建设完毕,有效推动了区域、医院的大数据相关建设,但未能全面覆盖整个大数据产业,没有达到等同于基础设施建设的投入规模。

国家卫计委规划的“46312”工程

(1)聚焦医院:隐私与认知制约医疗大数据发展

移动医疗、AI等前沿技术的发展唤起医疗数据的需求,大量科技医疗创业公司与三级医院合作,帮助医院进行数据治理,打造智慧化的临床应用。医院科室的参与、信息化建设政策的支持,促使医院围绕互联互通、智慧医院等方向开启规模化建设。

在推进医院信息化建设时,患者医疗数据和该类建设投资回报及参与度是需要关注的重点。对此类数据进行治理、集成、应用存在一定泄露风险,医疗大数据产业转化一定程度减少,医疗大数据行业发展整体放慢。另外,对于绝大多数而言医院而言,院内外规范化的IT建设是一项难以计量回报的投资,在缺乏合适的工具估算大数据建设的产出时,医院对于相关投资仍然持有保守态度。

(2)聚焦政策:政策频出,医疗大数据宏观环境迎来多轮利好自2020开始,政策与技术的加持不断推动医疗大数据建设。

2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”列为劳动力、土地、资本等之外的第五大生产要素;2021年11月,《“十四五”大数据产业发展规划》要求“到2025年我国大数据产业测算规模突破3万亿元,年均复合增长率保持25%左右。”

技术迭代同样推动医疗大数据产业的发展。2022年末,大语言模型(LLM)ChatGPT带动人们重新审视人工智能的价值,聚焦背后支撑应用的技术生成式AI(GenerativeAI)。2023年始,不少医疗IT公司、医疗AI公司、互联网医疗公司均已开发出各自大语言模型,并尝试在医院场景之中开发各项新式AI应用。

政策与技术双向驱动,医疗大数据产业再度火热。如今,更多医院开始参与大数据基础及应用建设,大企业们也嗅到风向,广泛参与其中,为产业注入新的活力。

(3)数据资产化

作为运营主体,医院需主动参与到医疗大数据的相关建设中。而进一步提升这一主动性,需推动数据资产化,将医疗大数据的治理工程由成本项转变为收入项。为保证数据流通的安全顺畅,保障要素市场的公平稳定等问题,需要多方协力解决。目前,限制数据流通的核心要素可归纳为以下几点:

  • 数据要素服务相关制度亟需完善
  • 缺乏有效的数据归属权界定标准
  • 市场机制尚无法满足流通交易需求

要解决这些问题,数据交易市场必须建立以政府为主导、市场化的数据要素交易机构和服务平台组成的体系。一方面需要国家主导完善数据要素服务相关制度,引导培育数据要素交易市场,另一方面也需培养更多供应商丰富数据供应体系,加大数据交易所传播力度,让各类数据要素高效安全地流通起来。

02 基建扩容:千亿市场的根基

高效掘取医疗大数据价值,首先需要建立先进的信息技术系统和数据平台,其次是构建、利用工具,对治理后的医疗大数据进行分析。为了治理过往沉积数据,标准化后续生成数据,不少医院开始投身于建立数据中心与运营数据平台,两个模块已孕育起一个十亿级市场。《全民健康信息化调查报告》数据表明:已有超过一半医院进行了一定程度的数据中心部署。

(1)新一代医院数据中心拉开千亿市场序幕

现代医院表现为医疗业务智能化与应用部署敏捷化,医院业务产生的信息朝复杂化、专业化、海量化的方向发展。部分医院转变信息化建设思路,借助云技术打造新一代医院数据中心,综合利用各类数据服务临床、决策和科研过程,提高医院管理的科学化、规范化、精细化水平。

传统大数据中心分为两类:一是以业务支撑为主、整合电子病历的临床数据中心(CDR);二是以管理和科研为主的大数据中心。无论何种形式,均存在数据质量较为原始、数据挖掘较为困难等问题,为解决这些问题,新一代大数据中心应运而生,以满足医院创新业务需求、管理发展的需求、智慧应用配置需求、跨部门业务协同需求、数据治理需求、数据服务需求。

在《新一代医疗数据中心建设指导》中,新一代医院数据中心被定义为“以私有云为主,多云结合为特征的医疗云数据中心”,并将其架构划分为医院基础设施服务层(laaS)、医院应用支撑服务层(PaaS)、医院应用层(SaaS)。目前,医院数据中心主要以私有云为主,确保数据安全与隐私,一些医院为简化管理,提高灵活性等,将部分非核心业务托管公有云,而混合云技术的使用仍在探索中。

(2)影像补位,AI企业成为基建主角

围绕医学影像展开的AI开发催生了独立建设影像大数据中心的需求,不少企业尝试以中台形式搭建能够综合管理应用全院所有影像的大数据平台。

现有的医学影像大数据中心通常具备两类智能。其一为集成智能化影像应用。医院常常会安装多个AI辅助诊断应用,其中,医学影像大数据中心可以起到业务中台的作用,便于医生使用。其二为助力影像数据资产化。影像大数据可以助力影像数据治理,注明其可能存在的价值。

(3)临床科研发力,科研药研加速数据库建设

临床科研数据库的建设需求可分为两类:一是数据沉淀,为尚未明确的研究课题和研究方向做探索准备;二是临床研究,如辅助已明确方向和课题的研究者发起的临床研究(IIT)等。

人工智能、大数据等技术出现后,临床科研数据库的部署开始由“人力支撑”向“智能支撑”、从“强平台能力”和“强科研服务”的转变;专病库与临床研究数据采集系统(EDC)两类重要产品开始融合,逐步合并为一套系统。

临床科研数据库的分类及特点

(4)数智化技术赋能,智慧后勤打开新需求更多数字化设备进入医院后,需寻求创新技术实现更为精细化的管理。顶层设计是第一步,将繁多的设备统一至单个系统管理,保证运营过程中的数据采集、数据治理、数据应用,满足多维度人群不同空间的多元化需求。

大数据工具支持下,医院各个场景产生的数据不再独立,且可实时传输至控制中心。全局性的智慧后勤将为医院带来一场管理革命,智慧后勤的市场规模会伴随医院院区的更迭不断提升,有望在未来持续发力。

(5)大数据赋能的智慧医学教育智慧医学采用现代信息技术,结合大数据和人工智能技术,将医学知识技能和经验转化为数字化数据,已在教育和临床医学实践中丰富应用。相较于传统医学教育,智慧医学教育可实现人性化教学、实时监测、协同学习以及跨学科合作。

目前,一些企业大数据平台支持学校和附属医院不同系统的多源数据对接,满足数据统一存储、处理、共享、分析、发掘;最大化利用教育数据,实现数据的互通共享,辅助教育决策,提升教育治理水平。

(6)解答5个医院大数据中心建设中的常见问题

  • 出于怎样的需求,医院需要建设新一代大数据中心?新一代大数据中心服务管理和科研过程中的数据分析处理,面向临床研究、医院管理与智能产品开发,满足数据批量处理的挖掘与分析需求。
  • 信息中心部门之外,医院是否需要另设大数据中心部门?大数据中心和信息中心的职能与特点不同:前者主要提供数据服务,后者以信息系统建设和运维为主。理想的状态是信息中心提供原始数据,大数据中心分析数据、建立模型,所得成果再通过医院信息系统赋能临床。
  • 专病数据库是不是数据研究的必由之路?当医院建有大数据中心和相应的服务能力以后,可将病例原始数据整合在数据资源池内,科研人员针对具体研究问题,进行数据加工、特征抽取和数据分析。
  • 数据安全问题能否解决?就目前来看,对于个人信息的管控尚未非常严格,“脱敏”“去标识化”处理不足。医院应建立安全信息通报制度,规范化风险隐患化解方案和应对工作措施。
  • 是否需要独立招募大数据治理相关人才?由于医疗大数据建设中的技术工作对人员要求较高,一般技术人员难以胜任,导致医院内高水平的信息技术人员数量不足。医院应招募特定人才执行大数据治理相关工作,保证建设的合理性与高效性。

03 应用创新,数字医疗建设进行时早期数据处理的根本目的是构成标准化数据集,服务于应用打造及运营。但现阶段医院各项大数据应用仍不足,需进一步发掘应用,这点正是科技医疗公司的机遇所在。

(1)临床大数据应用临床大数据应用是数据资产化中最具价值潜力的一类,临床信息化建设不断推动基于大规模医疗数据的临床真实世界研究,以电子病历为数据源建立临床研究数据库的需求愈发繁多,临床科研数据库系统的功能需求及支撑技术也在不断发展演化。

有效的真实世界研究一定程度依赖于研究者对于医疗大数据的分析管理能力。在构建数据集时,研究者应执行可行性评估、数据质量控制、方案分析、方案评价、输出与反馈、安全与合规六个环节,过程中需要完成数据评估、数据获取、数据存储、数据清洗、模型建立等工作,非常依赖大数据平台的处理能力。
临床决策支持系统(Clinical Decision Support System, CDSS)通过“数据治理”触达“临床管理”,通常由知识库、推理机和人机交流三个部分组成。AI与大数据相关技术推动专科 CDSS的发展,NLP 等智能技术的崛起,使得 CDSS 能够清晰“理解”需求,为临床医生提供决策支持。现阶段,CDSS 需要突破的难点有二,一是绝大多数的 NLP 仍需提升语义理解能力;二是受制于数据获取、场景认知等因素,创新产品的开发速度仍有待提升。

与专科 CDSS 面临的问题类似,创新AI辅助诊断系统的开发同样受制于病种数据的限制,因而医疗大数据的快速发展将帮助 AI 公司突破现有应用场景的局限性,进而颠覆 AI 赛道的发展。伴随影像数据标准化的推进,人工智能辅助诊断系统已经突破了眼底、肺结节等传统应用场景,实现了多模态、多病种、全流程的覆盖,甚至深入治疗领域,辅助手术导航。

(2)运营大数据应用将大数据分析技术应用到医院运营管理当中,能挖掘最具价值的数据信息,部分医院经营数据已得到充分分析应用,管理人员基于此可全面了解医院各科室经营管理情况,对原有的经营管理制度及经营状态进行实时调整。

运营大数据应用可为大数据的病种组合(DIP)提供技术支撑。目前,DIP 的落地通常分两步走:第一步仅基于主目录,即主诊断+主操作+病例数进行落地,对数据质量要求较低;第二步需加入病种第三层辅助目录进行考量,即肿瘤程度及病情程度,对次要诊断填写要求较高。因此,信息化水平较差地区可以率先开展第一步,待基础数据质量得以提升后,再对病种进行细分更新。信息化水平较高的地区可直接进行第二步,快速完成 DIP 部署。

DIP 对于医院运营决策的促进作用主要分为以下三点:一是促进医疗机构加强费用控制,提高经济运营效率;二是通过入组规则及辅助目录促进医疗机构提高病案编码与质控水平;三是促进医疗机构提高 CMI 值,提升核心竞争力。

在 DRG/DIP 发展过程中,其应用场景可串联全院管理链条,成为医院精细化高质量“转舵”的抓手。基于此,医院需要与资源消耗管理、精细运营管理、临床路径管理等路径深度结合,帮助医院从全过程规范管理,到一体化精细运营,直至以资源消耗路径优化临床路径,实现临床诊疗“质效”融合提升。

(3)院外其他大数据与应用相较于院内大数据,院外大数据归属于数据生产方,产权清晰,能够更加针对性地构建平台,开发应用,不少 IT 企业针对药房、保险等机构设计大数据应用,提升经营管理效率,缩减销售运营成本。

新冠疫情推动智慧药店发展,药店同时面临挑战与机遇,一方面需要利用人工智能、大数据等技术建立智能化平台,通过分析各类数据提升连锁药店管理能力,如部分企业协同智慧药房为患者提供个性化、专业化的健康管理服务;另一方面可利用现有互联网资源帮助连锁药店探索新的盈利途径,如上药云健康借助大数据技术及模型创新着力极具潜力的创新药院外市场,打开药房销售新增长。

与传统零售药店模式不同,DTP 药房销售主要是单价较高、存储条件较为严格的新特药,主要包括肿瘤药、罕见病用药等,且构建了一个连接医、患、药、保的综合服务平台,以病人为中心提供专业化、个性化、全周期的健康管理服务。同时,DTP 药房对肿瘤患者的全程管理具有重要的作用和价值,可为真实世界研究提供强有力支持

上药云健康益药DTP一体化平台

健康险考验企业精细化运营,过程中的风险定价需要大量的数据支撑。目前,由于缺乏医疗数据对接和共享机制,精算数据库无法得到扩充,健康险的产品创新受到抑制,同质化现象愈发严重。长期来看,商业健康险需通过串联用户、医、药、健康管理等多方利益体,构建医疗健康生态价值链,同时通过与基本医保的差异化定位、充分依托大数据技术优化行业经营,探索新的商业发展模式,从客户保障需求出发,建立面向不同用户的、精准定制化的全生命周期保险保障供给。

科学高效的防控措施是应对突发公共卫生事件的关键,大数据、AI等前沿技术组成的融合方案能一定程度解决传染病报告的及时性、完整性和准确性等问题。在突发公共卫生事件爆发后,可基于联邦学习,关联医疗、交通、通讯、教育等多源数据,可视化展示疫情发展相关数据和知识,并支持大规模核酸检测、密接和次密接排查、社区隔离管控、患者治疗、应急物资调配、疫苗接种等。

04 数据安全,成为应用推广的必要保障

医疗数据的价值体现于应用与流通过程,但存在数据泄露、数据滥用等问题,保障医疗数据流动安全是保障医疗大数据产业良性发展的前提。

自2011 年来,我国陆续推出一系列政策,以等级保护建设为中心推动医疗机构网络安全建设,将宏观目标拆分为微观细则督促医院执行。同时,医院对于信息安全的关注度也在持续提升,政策支撑下,通过等级保护三级测评医院不断提升,达到63.56%。

尽管等级保护工作的推进有效保障了医院数据的信息安全,但应对大数据时代的数据资产化及可能的数据流通,医院必须进行符合全新需求的安全体系建设,关注数据存储和处理保护需求以及数据传输和交换保护需求,才能避免数据相关问题带来的损失。

新一代医院数据中心安全体系架构

针对医疗大数据的数据保护需要关注多个维度,可分为三类:物理安全性、逻辑安全性以及隐私安全性。

  • 物理安全性:是数据安全的基础,保障数据物理安全性可以通过“双活”、数据快照技术、容灾备份等技术手段实现。
  • 逻辑安全性:是数据存储安全中的一个重要部分,医院需要对数据的逻辑存储(如认证鉴权、访问控制、日志管理、安全配置等)进行管理,保障数据存储安全。
  • 隐私安全性:对医院内部数据进行私密安全性建设时,须构建完整的敏感数据保护体系,在医院内部做好两个基础(敏感数据分类分级机制和以三权分立为基础的制度保障),管好三类人员(业务操作人员、运维和开发队伍、入侵者)与各类系统。

05 前沿讨论,大语言模型的构建与数据交易的可能讨论一:LLM 对于多模态大数据治理的潜在影响

NLP 的发展有力推进了智慧医院的建设,如自动书写病案、智能问诊、智能随访等,但尚未真正做到智慧智能,大语言模型(LLM)能一定程度解决目前智能程度不足的问题。由于医疗中文本类大模型的参数可控制于 100 万以内,包含文本与多模态影像的大模型参数可控制于 500 万内,因而非头部互联网公司也能参与医疗LLM建设。

医疗大模型企业图谱(截至2023年9月20日)

从概念到落地,现阶段的医疗 LLM 需解决两个问题。一是将大模型部署至医院,二是围绕医院需求构造“杀手级”应用,唤起医院购置的 LLM 的需求,进而实现 LLM 的规模落地。构建 LLM 需要的成本不菲,且需大量医疗数据,因而竞争仍存在于头部医疗 IT 企业与互联网企业间。同时,LLM 对于医院的架构要求严苛,能够支持 AI 应用的智能架构将比传统 EA 企业架构更好展现 LLM 的能力界限。

理想状态下的数据要素平台闭环

讨论二:应用级医疗大数据的交易可能就目前数据生产要素化形式看,临床数据可能是最具价值且能最快完成资产化的数据类型,但由于相关模式缺乏政策支持,仅能借鉴海外经验,探索应用级医疗大数据的交易可能。相较于发达国家,国内数据资产化程度缓慢,流通要素缺失。要构建完善的医疗数据交易体系,应协同监管机构、医院、交易所、第三方服务机构合作,共建医疗数据流通体系。包括:构建以患者个人信息为中心的全流程医疗数据安全防护体系;建立完善的数据合规组织保障体系,设立数据保护官岗位;引入第三方服务,提高数据合规建设的能力