独家|开挂人生之用机器学习攻破全球慢性病难题
采访 | 孟岩
编辑 | 鸽子
他是少年天才,本科就读于中国科技大学少年班;他是华盛顿大学的终身教授,一般牛人也得花个7年时间,而他只需要5年就评上。如今,他一头扎进了数据挖掘,在全美三大医学院之一的圣路易斯华盛顿大学,用最高质量的数据,研究如何通过机器学习来解决医学上的难题。
在本文的采访中,陈一昕不仅谈到了机器学习应用于具体医疗时面临的难点,如数据不规律,数据难获取,跨界的专业沟通,模型可解释性差,出错后果严重等;同时,面对这些问题,他也谈到了自己的兴奋点:
“科研更高的境界就是去发现新的问题、做新的研究。对我们来说找到新的问题,又有实际的价值,而且没有人做过,这实际是非常幸运的事情。”
正是这个兴奋点,让他不断打怪升级,攻破一个又一个难题,不断开辟一条又一条新的道路,为医疗与人工智能的结合打通经脉。他这一路到底开了哪些新的路?这些路到底对于医疗有怎么样的价值?如何站在高处来处理现有的难题?
请看AI科技大本营对华盛顿大学教授、犀牛科技创始人陈一昕的独家访谈。
开挂人生
AI科技大本营:刚见到您的时候还挺诧异的,这么年轻就成了华盛顿大学的终身教授,然后还回国创业了,这是驻颜术,还是您少年天才?
陈一昕:老实说,我本科是在中国科技大学少年班,1999年毕业以后去了美国读研究生和博士,在美国伊里诺易大学香槟分校。2005年博士毕业以后就直接到了美国圣路易斯的华盛顿大学,这是一所私立学校,是中西部的名校,在美国的综合排名基本上是在12—14名左右,号称是中西部的常春藤学校。这个学校有最好的医学院,是美国三大医学院之一。因为我的博士所学专业就是人工智能和数据挖掘,去了以后就和医学院有很多的合作,所以这样才进入了医疗人工智能这个领域。
AI科技大本营:可见您属于如假包换的学霸。美国的终身教职非常难拿,您怎么搞定的?分享一点经验吧。
陈一昕:确实挺难的。尤其做助理教授的时候,一般第7年评终身教授,我是第五年底就评上了。
要说到经验,第一必须安排好自己的时间分配,出最顶尖的研究成果。我们的考核有这么两大块,一方面是你的文章,是否在最顶尖的杂志上发表文章。另一方面是看你文章的引用数。
第二个就是拿项目。如果没有项目经费来源,不可能支撑你去做这样的研究。像我们这种实验环境,需要搭建机房,大量采购服务器和GPU,另外还要招学生,而且我们的博士生都保证有全额奖学金。但这不是学校提供的,都是教授通过自己的项目经费来提供的。
第三,教学质量也不能差。
再有就是,一些荣誉性的成就,比如我得了微软青年教授奖,每年全球5位。这个奖竞争非常激烈,我非常幸运拿到了,也相当于是一个加分项。另外也拿过美国能源部的青年科学家奖,和2010年国际人工智能大会AAAI的最佳论文奖。
这些因素加起来吧。
AI科技大本营:不夸张的说,您这就是开挂的人生。伊利诺伊大学香槟分校是全球数据挖掘领域的中心之一,您在那边见到过韩家伟教授吗?
陈一昕:我是1999年去的,韩教授2001年才到,我的导师是华云生教授,也是非常著名的国际专家,目前在香港中文大学。我本人与韩老师也有合作,我上过他的课,也有跟他合作过几篇论文,工作以后也跟他合作过。
AI科技大本营:当年怎么选择要去做数据挖掘的方向?
陈一昕:其实一开始我做的是人工智能,当时我们第一个项目是给美国宇航局做一个无人驾驶的火星车,需要做一个规划。我们一开始是将环境全部设定好,后来发现有很多不确定性,有很多需要分析的东西。在火星这样一个完全陌生的环境里,需要根据摄像头和传感器采集的数据对环境进行分析,然后再决定往前走或者转身等动作。通过这样一个实际的操作,我是发现数据分析是有很大的价值的,这才走上这条道路。
AI科技大本营:选择医疗人工智能方向是主动的还是被动的?
陈一昕:顺其自然吧。一方面我们做数据科学需要真实的数据,正好华盛顿大学有这么好的环境,我们医学院出过十几个诺贝尔奖得主,一大批美国科学院的院士,他们有很多高质量的数据。
此外,学校还有一个附属医院,是美国第八大医院,也是中西部最大的医院,它的病人是非常多的,每年住院的就有好几万人,所以方方面面有很多人找我合作。
另一个方面,在美国,年轻教师拿项目有很多的压力,拿项目就要找到实际落地的场景,这是项目资助方面需要考虑的因素。
当然,我本人也对这个方向有兴趣,我们做数据挖掘,还是希望找到实实在在的,能够改变人类生活的。还能有什么比治病救人更有成就感呢?
医疗人工智能的难点
AI科技大本营:您作为机器学习和数据挖掘方面的专家,在医疗方面有没有碰到什么障碍非得跨过去不可的?
陈一昕:障碍蛮大的,2005、2006年感觉尤其明显。双方都是不同的视角,医生关注的和我们关注的不一样。我们讲一些很简单、很明白的术语,对他们来说都是不太好理解。反过来,他们说的我们也不好理解,这当中的交流成本还是很大的。因为我们在两个不同的校区,每周开车去一趟。大概花了一、两年的时间才真正找到感觉。找到感觉以后才能发现问题,然后才明白你希望达到什么样的目标。
我们做计算机科学研究的,当时自己作为副教授,要做论文,要做创新。但医生们不关注你在计算机科学上面有什么创新,他们关注医学成果,要能实实在在的治病救人。但是很奇妙的是我们最终还是找到了非常好的结合点。
很多人写论文可能是自己有一个方法再找问题,我们是有问题了再找方法,这难得多。比如说预测慢性病的风险,这个可以抽象为一个高维时序数据的分类问题。分类问题有很多研究,但是高维的时序数据如何分类,这在当时还是一个新问题。
AI科技大本营:时序问题应该也有很多研究吧,比如金融市场上的问题不都是时间序列分析吗?
陈一昕:问题的性质很不一样。
之前的时序处理,数据是规律的,比如股票,每秒一个新的报价。但是医疗数据完全不是这样的,有的指标几个小时测一次,有的几分钟测一次,有的隔好几天测一次,有的隔一年再测一次,这如何处理?但是这对我们做科研来说是非常有趣的事情,因为我正好找到新的问题。
我们做科研分几个层次,一个是将现有的工作做改进,或者是提出新的方法。但是更高的境界就是新的问题、新的研究。对我们来说找到新的问题,又有实际的价值,而且没有人做过,这实际是非常幸运的事情。
AI科技大本营:美国做医疗的数据分析里面,传统上统计学一直是居于支配地位的。跟统计学、数学这些专家比起来,计算机科学出身的机器学习学者们有什么优势和不足?
陈一昕:就像武功有不同的流派,做的事情目标都是比较接近的,但是技术方法上是不大一样的。比如计算机方面很多人是做数据库出身,然后慢慢地有数据了再想如何挖掘出价值,然后做算法分析。而做统计的很早就做分析了,做回归模型,线性回归,方差测试。可以说统计学者的出发点和流派是跟我们不一样,但是我觉得非常互补。计算机的人更偏向于考虑性能。比如当数据量增大的时候,如何综合考虑到算法、时间复杂度、空间复杂度和性能。
统计学家不一样,他们会去考察定理,考察它会不会收敛,这个模型是不是稳定,他们会更多地是从理论和数学角度思考这个问题。
但是我觉得现在的融合的趋势非常明显。做统计的在跟计算机界的人合作,来一起做研究。比如我就曾经和华盛顿大学的统计学教授一起合作过。
AI科技大本营:前不久麦肯锡发了一个报告,按照AI的准备程度,对各行业排了个名。排第一的是互联网和高科技行业,第二是金融业。但比较意外的是医疗是靠后的一个行业。也就是说,在麦肯锡看来,医疗行业对于 AI的准备度是不够的。这跟很多人的预期不一样,因为大家觉得关于AI在医疗领域的报道是很多的,但是看麦肯锡的报告,医疗 AI 还差得很远。这是怎么回事?医疗到底是不是AI的热点和前沿?
陈一昕:肯定是热点和前沿,从投资界就可以看出来。大量优秀的资本像红杉、IDG都在追逐医疗大数据方向好的项目。从商业角度讲,医疗健康是刚需,我们说一个好的商业模式一定是刚需,这是医疗加AI发展的基础。这个大方向是没错的。
但是麦肯锡的结论是靠谱的,医疗AI 有很多地方都没有准备好。这里面有很多的原因:
第一个原因是医疗是非常严肃的问题,并不像是聊天机器人,出点错无所谓,医疗是不能出错的,后果是非常严重的。所以国家有很严格的监管。像我一个朋友做健康手环,做ECG心电,但是不能随便卖,需要药监局批准。任何国家都对这个有监管,需要时间验证。
第二个原因,医疗AI方面的确是有很多的难点。这是个跨界的事,我从做计算机科学起步,知道真的深入了解一个医疗的问题是很花时间的,需要好几年的沟通和学习。就算你的团队有医学专家,你自己也要有一定的知识才能做这个事情。反过来也一样,不是说一个医学的博士就能马上从事医疗方面的数据建模。所以人才是比较缺乏的。
数据数据数据!
AI科技大本营:我认识一个医疗大数据企业,他们介绍说这个领域里面数据的质量、数据的获取以及监管、隐私的保护在我们国内还是有很多很多的困难。便是拿到了数据以后,因为人有四万多种不同的病,看起来很大的数据,如果一旦分布在这样大的可能性空间里面,大数据就变小数据了。这样的问题有什么样的思路?
陈一昕:对,这也是医疗大数据发展的障碍之一,因为现在不光是中国,美国也是,医院和医院之间的数据共享还是非常少的,基本上医院的数据想拿出来很难。就连医院内部都有很多信息孤岛,一个大医院可能有几十套信息系统,几十个厂家开发的,信息之间不连通。目前看来,解决数据挖掘需要的大量数据, 一种方向是政府和科研机构牵头。中国基础还是不错的,医院信息化发展非常快,政府做了很多的工作,针对一些病状,比如说脑卒中,政府组织了几百多家医院参与筛查,并且把数据集中起来分析。我们就参与了这当中脑卒中的预警及传播规律建模的工作。
另一种方向是医联体或者是医院集团。目前我们帮助一家医院集团把底层的平台全部打通,它上面是有二十几家医院,每个医院有自己的信息化系统,但是下面是一层大数据平台,接口是标准化的。新增加一家医院,所有的信息化系统会像插件一样插在我的平台,底层是互联互通的。比如说我到这个集团的某个医院拍片子,在另一家医院就不用拍了,数据是共享,只有共享了数据量才能上来。
当然,这么做我们的数据要标准化。我们现在自己定义了一套云平台数据标准在做转化。针对医院集团这样的项目,我们底层云平台数据全是标准化的。当你达到这个标准,所有的数据都是在云端、所有都是标准化,医院信息系统之间不是网状的结构,而是直接插在平台上的结构。
我们的定位是一家技术型的服务公司,我们的核心能力也是分析医疗健康数据。我们云平台上面有数据挖掘分析的算法,目前我们最关注的领域是慢性病的管理,以及医院内部的急重症预防,这是我们的两大核心能力。慢性病我们自己不做硬件,但是和一些硬件厂商的合作,通过像健康小屋,移动便携设备和穿戴式设备,把数据收集上来做标准化整合,然后进行分析慢性病的风险,对脑卒中、糖尿病、高血压、高血脂这样的慢性病进行跟踪管理,同时利用可解释人工智能技术给他反馈。
攻破技术难题
AI科技大本营:医疗领域里很重视模型的可解释性,这是否意味着炙手可热的深度学习就受到了限制。
陈一昕:是的,无论是院内、院外,机器学习的模型输出需要给出解释。比如,一个模型不但能预测某患者有脑卒中高风险,而且能够指出关键改善因素。比如,如果血压140降到120,他的风险有多少改善,或者是由于哪两项指标的结合过高所以导致了怎样的风险。而且我们需要的模型,一定要简单。现在深度学习模型动不动就是多少亿的参数,它相当于是一种暴力的方法寻找关联性,可解释性差。我们在KDD’15上一篇论文就是从随机森林中提取出可解释方案。另外,我们的模型必须具有指导性,你可以根据模型给病人一些建议,要求他采取行动。这两点都是必须的。
AI科技大本营:所以还是以线性的模型为基础?
陈一昕:有几种套路,一种是建模时就保证模型有足够的简单性和可解释性,像逻辑回归方法。还有一种方法,我先做复杂的非线性模型,然后把模型简化。比如先训练一个神经网络,然后简化为可解释的模型去逼近。第三条路子是我先把复杂模型建好,然后再来测试,把它作为黑箱,再来看哪些指标敏感度高。复杂模型没错,你先找到关联性,再从准确反映关联性的模型上抽取出可解释模型。
AI科技大本营:深度学习最大的优势除了模型能力强之外,更重要的是可以进行表示学习,也就是说不用你做那么烦琐的特征工程。但是在医疗领域,是不是特征的工程还是无法避免的呢?
陈一昕:的确是。机器学习当然是可以学一些表达,但是基于医学知识的特征工程师是不可或缺的。了解医学知识可以节约大量的计算量。
对我们来说,深度学习是有局限性的,比如说我们看一个时间序列,它一个序列有一个时间维度,对不同的疾病预警,波形特征是在不同的时间尺度上的。有的在秒的上面找到波形,有的按小时,有的按天的尺度,非常不同。深度学习很难直接找到。我们在研究的过程中也提出创新型的模型,将信号处理的变换技术与卷积神经网络相结合,能够自动找到适合的时间尺度表达。
AI科技大本营:我发现您研究的医疗数据挖掘,跟CV、语音、NLP相比,最大的不同是时序性。但以前我采访过非常著名的时序分析专家,他跟我讲时序分析这件事其实是有很多的盲点,很多没有搞清楚的地方。所以这个技术用于咱们的医疗里面,您觉得现在成熟度怎样?
陈一昕:的确是有很多的盲点,因为时序是非常特别的结构,而且又是高维的。我们做一些建模时用了多达150项人体的指标,而且时间尺度还不一样。
另外,不仅仅是时间维度不一样,还有频率,就像你炒股票,有时候做高频交易,要看高频信号,有的是低频,要看低频信号。所以对不同频率域也要分析。刚才你问到的统计学的方法,有一些东西很多计算机学者可能都不知道。比如,可能我们都知道逻辑回归和线性回归,但还有一种东西叫Cox Regression分析,很多计算机学者不知道。我们做了一个工作,就把Cox Regression分析和机器学习结合,取得了非常好的效果,并且获得了2015年全美医疗信息化大会(AMIA)最佳论文奖。这样的盲点恐怕还会有很多,值得我们去进一步探索。
AI科技大本营:我相信您的公司也会需要一些工程师,您对他们有什么要求吗?
陈一昕:我们公司会有不同的岗位,每个岗位的要求有一些区别。
比如我们的软件工程师,我希望他做过数据挖掘相关的工作,至少是对一些软件包有一定的熟悉。我们的开发团队成员我都会让他们看一些数据挖掘和机器学习方面的书。不一定理论上和技术上有自己的创新,但是至少知道自己做什么。
但是对于数据挖掘方面的工程师,我们要求更高,基本上要求是数据挖掘相关领域的博士。