剑客
关注科技互联网

已用1.6亿份病例训练人工智能,大数医达要把机器培养成中级医生

已用1.6亿份病例训练人工智能,大数医达要把机器培养成中级医生

从医院信息系统,到电子病历系统,到跨系统的集成平台,到基于人工智能技术的临床诊疗辅助决策系统, 新技术正在循序渐进地改变传统医疗 。从实现信息的互联互通,到提高医院的运营效率,直至提高临床诊疗水平,每一步都更接近问题的核心,而每一步的难度也都更高。 

当下最艰难的一步,是把人工智能,尤其是深度学习前沿技术,应用于医疗行业,实现临床诊疗辅助决策系统。如果能够成功地迈出这一步,就能够增加优质医疗资源的供给。医疗供给侧的改善,不仅社会效益深远,而且商业潜力巨大。

大数医达 CTO邓侃博士这样介绍他们的技术原理:用深度学习算法,能够把病历转换成输入和输出一对向量。输入向量包含患者的性别年龄等基本信息、身高体重脉搏血压等生命体征、以及症状、化验指标、和影像检查标志物等等。输入向量的维度非常高,高达几千维,实际上输入向量描述的是患者的病情。而输出向量包含诊断结果,也就是所患疾病,和治疗方案。

“想象一下,如果有一个宇宙空间,它的维度与病历的输入向量的维度相等,也是几千维。把病历投射到这个宇宙空间里去,那么一份病历就是宇宙中的一颗星星。我们现在处理了 1.6 亿份三甲医院的病历,那么在这个宇宙空间里,就有 1.6 亿颗星星。”邓侃说,“ 这些星星不是均匀分布在宇宙空间里,而是聚集成一团一团的星云。每一团星云的中心是某一种疾病。大的星云对应着常见病,因为常见病的病历数量多。小的星云对应着罕见病。有些星云之间,相距甚远,因为星云对应的疾病,毫无关联,例如骨科病的星云,与呼吸科的星云。也有一些星云之间有重叠区域,这说明这些星云对应的疾病,往往是并发症、合并症、或诱发症,例如肺部疾病和心血管疾病。”

所谓诊断,就是给定宇宙空间的一个坐标,希望预测输出向量中的诊断结果,也就是疾病。怎么预测呢?先寻找这个坐标周围有哪些星星,也就是相似病历,然后统计分析相似病历中,人类医生曾经做过的诊断结果。简而言之,大量优质的病历数据,是实现临床诊疗辅助决策系统的必要资源。

像大数医达这类医疗大数据及人工智能企业,不需要把病历数据占为己有。他们在医院内网帮助医院搭建私有云,在私有云里先汇总医院内网中存放的所有病历数据,然后再用深度学习算法,训练从输入向量预测输出向量的数学模型。他们从医院获得的,不是原始病历数据,而是不涉及病人隐私的数学模型的参数。

中国人口全球第一,每年诊疗人次接近 80 亿。另外,各地三甲医院实现电子病历已经十年多。这给国内医疗大数据及人工智能企业,储备了全球最大的病历数据资源。大数医达在不到一年的时间内,与各地十多家三甲医院进行合作,已经处理了 1.6 亿份电子病历,而且每天都在不断处理新增病历。

获取了海量的优质的病历数据以后,就可以训练模型,实现临床诊疗辅助决策系统了。训练模型的技术难度非常大。

病历数据来自真实世界,数据不完整的现象普遍存在,譬如门诊病历中,常常缺失症状描述。数据的质量也存在很多偏差,譬如门诊的诊断结果,往往不够精准。另外,医学存在信息不透明的问题,譬如不少疾病的病理,至今仍在探索。同一个治疗方案的疗效,因人而异,存在很大的不确定性。而且治疗过程不可逆,永远回不到昨天。这些特点,给训练模型造成了很大技术障碍。

据邓侃博士介绍,大数医达是这么规划他们的开发路径的:先对医院每个科室的病历做统计,看看哪些常见病能够覆盖超过 80% 的诊疗人次。他们发现,呼吸科 19 个常见病,覆盖了 80% 以上诊疗人次。心内科 22 个常见病,消化科 20 个常见病,等等。

大数医达首先对这些常见病逐个训练模型。训练模型,不仅依赖于病历数据,而且要参考医学文献。每个科室约 20 个常见病,需要 3 周左右的训练时间。大数医达总共要处理 14 个科室。不仅技术难度高,而且工作量巨大。邓侃博士说:“我们的目标是,希望能够让机器的水平达到中级医生的水平。为常见病的诊断和治疗,提供中规中矩的标准化的专业建议”。

谈到大数医达的产品的服务对象,邓侃博士表示,他们现在已经开始与药店合作,提供药品导购服务。下个月即将为健康险公司,提供核保防欺诈服务。等到14个科室的常见病的数学模型,被训练到一定程度后,他们将为基层医院的医生,提供辅助诊疗服务。同时为老百姓,提供智能自诊服务,提供操作简单但是高精度可信赖的第二诊疗意见。

目前大数医达拥有10多人的团队,目前主要专注于产品研发。此前,大数医达已经完成了一轮天使融资,目前正在进行pre-A轮融资,用于扩充团队。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址