邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

新智元 · AI WORLD 2017

演讲嘉宾:邓侃

【新智元导读】新智元AI WORLD 2017 世界人工智能大会,大数医达CEO、CMU计算机学院暨机器人研究所博士邓侃,发表演讲《智能诊断系统的4大技术难点》,分享了构建中国首个全过程医学诊疗导航系统解决方案的历程,并全方位披露技术内核及商业模式。邓侃博士介绍,构建全过程诊断和治疗医疗导航系统,能够提高基层医生的临床水平,促进基层首诊,还能促进民营商业医疗保险进入,降低政府医保支出。

而在构建这个系统的过程中,他们也创造了好几个“第一”——在数据收集方面,首次构建第三方处方管理系统,填补中国社会在这方面的空白。其次,为了保障医院对医疗数据的安全,在医院里构建私有云,在云上处理克隆数据,从进入到产品上线,只需3周,这是中国最快、最高效和安全的方案。在数据处理过程中,通过对3亿多份三甲医院优质病历进行病历结构化和数据挖掘,结合医学知识,构建知识图谱,这个图谱涵盖11.8万个医学实体,可能是目前世界上最大的医学临床知识图谱。

大数医达的智能医疗导航系统,将这个庞大医学临床知识图谱融入深度学习模型中,用临床数据做初始化数值,用知识规则做后验,结合在一起做精细化诊断,后续利用强化学习,将多种检查手段合在一起形成闭环。这个闭环系统同时也是开放的,可以插入各种第三方疾病诊断模块。不过,构建这个系统,目前仍然还有4大技术问题,邓侃博士表示,他们正在联合全世界最优秀的大学和科研机构,“我们的开放系统可以团结全世界最优秀的研究成果,完成一个伟大的项目”。

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

大数医达创始人,CMU计算机学院暨机器人研究所博士邓侃

邓侃,上海交通大学本科及硕士,美国卡内基梅隆大学(CMU)计算机学院暨机器人研究所博士,专攻人工智能及数据挖掘。历任美国甲骨文公司(Oracle)主任系统架构师,美国泰为手机导航公司(Telenav)北京分公司总经理,百度高级总监并主管网页搜索和知识图谱。2015年,邓侃创建北京大数医达科技有限公司,旨在将深度强化学习技术应用于医疗健康领域。

构建全过程的智能医疗系统,走“农村包围城市”的路线

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

构建诊断和治疗全过程的智能临床医疗导航系统的价值

邓侃:谢谢大家!今天跟业界朋友们汇报我们在将人工智能前沿技术应用在医疗行业的进展和一些心得。非常感谢新智元,我们见到很多海内外老师、专家、同行朋友们。

刚才王飞教授和马坚教授谈了人工智能技术应用在医疗行业一些进展,比如说CMU用人工智能识别心电图,精度达到或者超过人类医生。但是,很多进展都只发生在某一个诊断,或者某一个治疗环节。我们创业的人,动机和定位与前面研究略有不同。我们更强调诊断和治疗全过程的人工智能,我们称之为“导航”的系统。今天,我们第一次向业界朋友全面披露我们解决方案的技术内核,以及我们的商业模式。

假如说我们做成了全过程诊断和治疗的医疗导航系统,那么它的价值点是什么?

这里要看两方面的价值:第一,对应卫计委分级诊疗,我们为基层医生提供临床导航,大规模、短时间、低成本、高效率的提高基层医生的临床水平,促进基层首诊;第二,我们促进商业的民营商业医疗保险进入整个医保行业,逐渐取代政府背景的新型农村合作医疗等医疗保险,降低政府在整个医疗行业的保险支出。

最近国家新出台了药品零差价政策,使得药方从医院盈利中心变成了成本中心。很多医院不再愿意设置医院药房,而这势必造成医院周边社会药房的繁荣。这本来是一件好事,但却必然导致另外一个问题——处方外流,因此必须有社会第三方推出的处方管理系统,这在美国、英国称之为“PBM”。中国到目前为止还没有一个成熟全面的PBM解决方案,而我们公司会为社会填补这个空白。

在欧美,PBM要求审核全部病历,在中国这件事难以实现。因为出于对医疗数据安全的考虑,医院一般不愿意给PBM公司提供所有病历,这就是中国民营医保行业难以发达的重要原因。我们的解决方案,绝大多数通过机器进行审阅,这个里面存在技术的问题,但是更多是政策和社会问题,商业问题。

为此,我们先选择市场比较发达、信息化程度比较高的地区,建立了几个示范点。这些示范点不是在大城市里面,而是在郊县,因为郊县阻力比较小。先从农村试点,然后逐渐走向大城市,星星之火可以燎原,这就是我们发展路线。

这件事情非常难做,我们联合了美国的匹兹堡大学医学中心(UPMC),UPMC是美国第12大的医疗集团,拥有大中型医院及很多医生,医疗资源非常丰富。此外,UPMC是与斯坦福、MIT齐名的顶级人工智能学术机构。UPMC还与CMU同在匹兹堡市,沟通非常方便。用UPMC的医疗资源,加上用CMU的科研技术,加上大数据,我们整合得到最高级的诊断和医疗导航。

数据收集:不改变医院既有生产环境,构建私有云数据处理系统,从进入到产品上线只需3周

同时,这件事情我们也花了很长时间。为什么?因为难。首先,我们收集了海量病历数据,处理了6亿份三甲医院的电子病历。在收集的过程中,首先要充分保障医院对医疗数据的安全考虑,所以我们在大型医院里面构建私有云,所有的数据处理在医院内部进行。我们不去改变现行医院的生产环境,而是克隆数据放在私有云里处理。

我们所有的数据处理模块,都放在我们引入的第三方插件一个文件集装箱里面。我们要引入插件,但又不能完全相信插件,所以要放在一个集装箱里,这是Docker Container的意义。我们跟CMU合作,把CMU原代码放在Docker Container里面。CMU不能完全接触所有数据,不能接受所有命令,只能接触有限数据,制定有限的命令。我们通过消息队列,实现完全异步工作流程组成。消息队列和异步可以随时调整整个工作流程协作关系,非常灵活,非常柔性。

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

在搜集病历数据时,大数医达公司充分保障医院对医疗数据的安全考虑,在大型医院里构建私有云,所有的数据处理在医院内部进行

上面这张图展示了医院内部私有云系统架构,我们每进一家三甲医院,都不动生产环境,不需要停机,从进入开始到产品上线,只需要3周。我们不需要与原来厂商进行配合,不需要任何房间和工位。到目前为止,就我们所知,至少在中国,我们这套解决方案是最有效、最快、最安全解决办法。

数据处理:用世界上最大的临床医学知识图谱做输入,结合深度学习和强化学习,形成闭环系统,同时可向第三方开放

除了收集海量病历数据,我们还对病历数据进行处理。病历里的说法千差万别,有很多缩写、错别字等等。面对这些问题,首先,我们建立了一个医学的同义词词库,有了这样一套同义词词库,医院的常见病历基本上就扫除了障碍。其次,我们再把自然语言翻译成为结构体,实现非结构化数据结构化的转换。结构化转换怎么做呢?比如说查房记录,讲到症状,什么药物、病情转归、提出护理要求,内容很多,我们先识别大类型,然后用深度学习算法做句法分析,把自然语言的句子翻译成一个张量。翻译完后,每个病历都成了一个张量,这样就可以比较两份病历的相似性。6亿份病历就是6亿个张量,之后我们可以进行大量统计工作。

在进行这些统计工作时,我们首先把所有病历张量里面的医学实体统计一遍,得到很多点,也即实体,同时统计贡献的频率,即同一份病历里什么样的症状对应什么疾病,对应什么药品。由此,我们就能得到点与点之间,点与边之间的关系,串起来就是图谱。我们有6亿份病历,现在整理了3亿多份优质病历,由此构成的图谱目前为止有11.8万个点,是我们所知迄今世界上最大医学临床知识图谱。

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

接下来,我们开始进行实时诊断导航,这件事情怎么做?首先,我们将所有病历描述压缩成为一个等长的定长的张量,接下来大致识别哪一组疾病,进行分等。有了分等后,要做精细化诊断,精细化诊断光靠数据不够,因为病历数据里面40%以上是噪音。所以,要借助外力,外力有两个来源:一是预先离线处理好的临床数据图谱;二是医学的知识规则,也即我们说的医学知识图谱。

我们通过把两个图谱融入到整个深度学习模型中,将临床数据用来做初始化数值,将知识规则做后验,结合之后做精细化的诊断。这样诊断得出的结果有两个:一是诊断模型,根据现有的可能是有限的病情描述,告诉患者患了哪些病;二是导航模型,现在由于病情描述有限,推断出来可能的疾病有非常多,后续需要更多化验和检查。

由此,我们完全借鉴了下围棋的方法,使用强化学习,让系统学习医生下一步会做什么。将多种检查手段合在一起形成一个闭环,让整个诊断系统不断完善和改进。这个闭环系统同时也是开放系统,可以插入心电图诊断模块,也可以插入斯坦福做的皮肤病诊断模块,我们的开放系统可以团结全世界最优秀的研究成果,完成一个伟大的项目。

尚存4大技术难点:多模态通用语汇、结果精度评估、知识图谱用途、诊疗逻辑解释

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

这件事情我们跟全世界最优秀的机构一起推进,因为有太多问题要解决,我们的产品是可行方案之一,但是,非常坦率说,肯定不是最优方案。我们公司的任务,是使用现有技术,以最快速度开发出完整的产品,推向市场,体现价值。整个系统中,各个环节可以继续优化的地方很多,需要很精细的研究。这些研究工作,不是我们公司的重点,我们会联合全世界最优秀的大学和科研机构,研究这些课题。目前看,这个系统有四个问题:

第一,这是多模态问题,有影像、心电图、文字多部分,我们目前把它全部翻译成文字,因为我们需要用共同语言。那有没有可能换成数学张量?

第二,我们怎么评价模型评估的结果?病历本身有噪音,拟合越好,不见得精度越高。深层对抗模型或许是更好的评估方案。

第三,我们借助两个外力,一个是临床数据图谱,还有一个医学知识图谱,一个是数据模型参数初始化,第二个是模型训练完以后它的后验正则化,目前的应用还是比较浅。我们能不能直接干预深度学习训练的整个过程,而不是仅仅用于前验和后验?

第四,解释性差,系统结果不错,但是逻辑关系模糊。这四个问题不是我们一家公司能够解决的,也不是一家大学能够解决的,我们需要全世界最优秀的人才合力完成这一伟大事业。

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

邓侃:中国首个全过程智能诊疗系统,全方位披露技术核心商业模式

这是我们和微信联合开发的一个面对终端用户患者的智能自诊,名字叫大数健康,可以完全用白话向系统提问,实现输入完全自然语言化。

第二个,我们不仅可以输入症状,还可以输入化验指标,比如白细胞增高,这是一个开环系统,将来还要对接其他公司影像产品。

第三个,系统预测出是什么疾病以后,我们要对接微信里活跃的医生,对接很多线上线下药房,对接各种不同的医院,实现导医、导诊、导保险等等过程。

以上就是我们大数医达公司的进展,第一次跟业界沟通我们整体系统经验和得失,谢谢大家!


相关推荐