浙江大学吴飞教授:搞研究的学生要坐得住冷板凳
记者 | 鸽子
在整个采访过程中,吴飞教授在回答中给人的最大感受是温和、儒雅。他没有激烈的言辞,也没有犀利的观点,不会一开始直接抛出自己的判断,而是将所有的提问,看作是一次学术上的严谨探讨,从问题本身出发来分析其内核,然后根据自己的理解给出具有逻辑的解答。
即使对于风口浪尖上的AlphaGo Zero,吴飞教授依然保持了克制和冷静。他提到这其中让他最为兴奋的点:“仅通过“从经验中学习”的强化学习手段、而不利用海量数据来学习一个强大的模型,这是AlphaGo Zero令人印象深刻的地方。不过,最终的主宰仍是人类。我不赞同马斯克和霍金的威胁论。”
言语之中,吴飞教授始终透露着不争、不炫、不急、不躁的韵味,而在谈到如何教学时,他的为人师表,作为研究者的严谨风范跃然纸上。他说在鼓励研究生多花时间投入科学研究时,会经常告诉自己的学生,“作为你的导师,我会比你们更勤奋。你们还有什么理由不刻苦呢?”
他强调知行合一。无论是在学术研究、还是课程教学,一点一滴中,他身上厚重的人行品格让人印象深刻。
今天,就让我们一起近距离接触一下吴飞老师,原汁原味地听他说说话。这应该目前关于吴飞老师的最详尽,最有料的一篇报道了。
人工智能是个大热门?
AI科技大本营:近几年,人工智能突然变得很火热,您有没有明显的感觉,人工智能这样的学科和研究方向,突然之间就从无人问津的冷门,变成了人人必谈的大热门了呢?
吴飞:从我自己的经历和研究角度来看没有,并没有特别觉得好像突然某一天,机器学习或者人工智能一下子就热起来了。之所以外界有这样的认为,应该是媒体最近更为关注人工智能的原因。实际上呢,人工智能按照它自身的一定的规律在进行和发展的,人工智能的这种发展与其所处的信息历史环境是紧密相关的。
我从三个阶段来说一下我的感受吧。
我读本科是在90年代初。那时,计算机这方面还是以硬件进步为主流,那个时候谈的更多是摩尔定律和多核CPU,从硬件角度来提升计算机性能是一个主要的研究方向。
读博士时,已到90年代末期,那个时候比较热的是统计学习理论和方法,如支持向量机和一些核理论方法。这些方法更多是从统计学的角度出发,先对数据的分布假设一个模型,基于这个模型,对数据进行学习、推理和分析。应该说,那个时候的人工智能算法更多要依赖专家的先验和知识,而不是以大数据驱动的方法进行学习。
如今,我们进入到的一个发展阶段,即进入了一个大数据涌现的阶段。为了更好地利用这些海量数据,目前人工智能的代表方法即为大数据驱动的学习方法,如以深度学习为典型代表。
为什么会进入大数据驱动学习的人工智能阶段呢?这是因为随着物联网、互联网的发展,人类社会、物理世界和信息空间之间的联系无时无刻、无所不在,海量数据不断在这三元空间不断涌现。
不断涌现的海量数据以及计算手段的提升,推动了数据驱动学习的人工智能发展,使之成为一个值得关注热点。
可以看到,只要符合社会的发展,到达某一个时刻,就自然而然会产生某种需求,带动某一研究,最后得到某种成果。这是一个事物正常发展的规律。
AI科技大本营:在您的教学过程中,您能明显地感觉到学生对人工智能相关的课程和知识有比较强烈的热爱或偏好么?
吴飞:当前业界对人工智能的需求以及媒体的解读,使得学生们有一个直观的印象,就是学好了人工智能,就能找到一份很好的工作。在这个背景下,一些学生自然而然就会在学习中特别偏好人工智能,向人工智能这个方向努力。
最近几年来,在浙江大学,诸如人工智能以及机器学习等课程,还是普遍受到学生们的欢迎。
我听说,目前在有些学校,选修人工智能课程的学生人数已经超过了计算机科学中传统课程(如数据库或者操作系统等)。
这从一个侧面反映了在业界的巨大需求推动之下,学生们开始往这个方向来培养和提升自己的能力。
AI科技大本营:您觉得这个是好事情吗?像您刚才说传统核心的课程,它的热度还赶不上人工智能相关的学科热度。有没有可能说,有一点舍本逐末的一味的追求?
吴飞:我觉得不能这么去讲。
第一点,任何一个学科,它总是在发展,在发展中进行自我调整、自我改善和自我革新。比如说人工智能的计算模式目前的的确确发生了很大的变化。传统人工智能需要过多依赖于专家的先验和知识来构造一个模型,从而进行学习。
但是,在非常复杂的大数据面前,模型变得越来越复杂,难以“构造”。那怎么办?就从大数据里面进行学习,学习出模型本身。因此,我觉得并不是说,操作系统或者数据库现在的热度赶不上人工智能的热度,就显示出我们舍本逐末,而是说人工智能反映了这种时代的需求。
第二点,即使人工智能很热,我们也要保持清醒的认识,认识到现有人工智能方法的不足。如以数据驱动为核心的人工智能方法并不是完美的,如其依赖于标注大数据、难以解释等,因此这一方法需要和其他人工智能方法和模型进行有机结合、相互补充,才能建立起更好的计算模式。
所以总结来看,应该说明两点。第一点就是说,人工智能目前很热,确实反映了业界需求,;第二,人工智能在热的时候,还存在着许多不足,需要通过重大的理论创新,,来为人工智能长远发展提供动力。
那些与浙大有关的联合实验室
AI科技大本营:目前整个工业界对于人工智能学界的需求很是旺盛,几天前,阿里刚刚宣布成立达摩院,预期3年投入1000亿资金,并引入全球10位顶尖科学家一起来做最有价值的研究。浙大计算机学院在与工业界的合作上,有哪些具体的项目吗?
吴飞:最近几年,确实能够深刻感受到工业界对人工智能研究的重视程度。浙江大学计算机学院也陆续跟一些公司开展了合作,如与阿里巴巴、科大讯飞、浙大网新、商汤科技、海康威视等都有不同形式的联合实验室或联合研究中心。
AI科技大本营:可以具体讲讲计算机学院与这些企业之间是怎么合作的吗?
阿里巴巴是在今年5月31日和浙江大学签约,成立“阿里巴巴-浙江大学前沿技术联合研究中心”,希望与浙江大学合作,解决阿里巴巴在实际过程中遇到的问题或着眼于未来的科技难题。
据我所知,这些需求的具体产生过程是这样:比如阿里内部总共提出若干需解决的难点问题,这若干个技术难点,首先通过阿里内部遴选,进一步选择与浙大进行合作研究的课题,然后把这些课题与浙大合适的教授进行对接,通过开放的讨论,最后阿里的某个团队与浙大某个教授团队一起来合作,共同研究解决该难点问题。
应该说,企业与高校之间的合作,大多数是有明确应用背景的基础理论研究或者核心算法突破,而非用高校现成的技术、现成的模型方法去立马解决企业面临的问题。
再比如浙江大学计算机学院和海康威视合作成立了“浙江大学-海康威视视觉智能计算联合研究中心”,这一中心也是集中于基础理论研究,如深度强化学习和非监督学习等。
AI科技大本营:这种长期性的问题,很难直接在工业上产生效益,这些联合实验室的经费主要由谁来提供?
吴飞:是由对方提供。以“浙江大学-海康威视视觉智能计算联合研究中心”为例,中心中的老师们可申请该中心重点关注的研究任务,由浙江大学和海康威视联合组成的专家组对申请项目来进行评审。如果该建议通过,就给申请人相应的经费支持,这个经费就从海康威视给浙江大学计算机学院合作经费中支出。
商汤科技与浙江大学CAD&CG国家重点实验室共建“浙江大学-商汤三维视觉联合实验室”; 浙江大学还与互联网医疗企业微医合作,成立了“浙江大学睿医人工智能研究中心”,共同开展人工智能与智慧医疗方面的研究;与浙大网新合作成立了“浙大网新-浙江大学人工智能联合研究中心”等。
AI科技大本营:从这个侧面来看,人工智能领域确实热度很高,至少研究经费是绝对不缺的。
吴飞:现在的情况是,只要你有时间、有研究积累和技术储备,总会有一定的经费支持。因为现在人工智能比较热,很多企业都想和高校开展合作。
AI科技大本营:比以往任何时间,都能感觉到目前经费上支持的力度是最大的吗?
就我多年的从教生涯,当前政府和企业对人工智能的经费支持力度确实是最大的。 但是在此前,要申请一些项目经费,可能就并没有这么容易。
另外也存在一个现象,经费分布存在不平衡性。如长期进行基础性研究的研究人员与做应用的研究人员相比,在项目经费获得上还是有所差别,这就可能会冷落一批坐冷板凳的基础理论研究者,这确实是一个客观实际。
AI科技大本营:一般来说高校更偏向于前沿理论研究,对于解决工业实际需求,会不会有点脱钩?
吴飞:这样从两个方面来认识。
首先需要扎根基础理论研究,以从源头上不断进行突破,瞄准新的理论和新的方法进行研究。
其次在实践上,要把基础理论与实际场景进行结合。因为算法不可能放之四海皆准的,算法要针对某个特定领域进行研究。
高校一般在做研究时,由于缺乏实际应用背景的支撑,更多的是做研究一种通用的人工智能算法。只有将算法研究与企业需求结合,,将算法与应用捆绑在一起,这样从从实际出发去考虑算法研究,这样的研究才会落地,具有一定的生命力。
学科交叉很重要
AI科技大本营:我在网上找到关于您出版的三本书,一本是《人工智能游戏编程真言》,一本是《图像分析处理基本算法》,还有一本《网上多媒体信息分析与检索》,这三本书乍看起来方向似乎相差很大,这些都是您的研究方向吗?他们有什么内在关联吗?
吴飞:其实不能完全说是三本书。
《人工智能游戏编程真言》是翻译由Steve Rabin主编的一本英文书籍,由清华大学出版社出版。我只是其中一个译者。
《网上多媒体信息分析与检索》是庄越挺教授、潘云鹤院士和我编著的一本书,由清华大学出版社出版。算是我写的一本书。
这本书主要是介绍基于内容的多媒体检索模型和方法,包括基于内容的图像检索、音频检索和视频检索。
《图像分析处理基本算法》是我在讲授本科生课程《图像信息处理》过程中断断续续整理的课程讲义,希望给同学们上课提供可供参考读物。
上课的时候,我会把这个课的讲义发给同学们,这样,他们就能在课堂上更好得理解教学的内容。
《网上多媒体信息分析与检索》中的算法和模型体现了“手工构造”先验和知识来进行机器学习的方法。
《人工智能游戏编程真言》中的模型和方法多通过逻辑和符号来进行人工智能推理。
《图像分析处理基本算法》这一讲义,里面不仅包括了基于先验和知识进行学习,也包括了数据驱动进行学习的方法。
总之,以逻辑和符号为主的人工智能、以模型为核心的人工智能,或者是以大数据驱动为主的人工智能,都是人工智能研究中值得关注的方向。
AI科技大本营:您更多算是偏向于基础研究?
吴飞:我个人对基础研究比较感兴趣。
AI科技大本营:像学科里面,一般就是说,偏基础研究的这一块,是不是在经费申请上,会比偏具体应用的,会相对要难一点?
吴飞:对,你可以客观去看这个问题。就是说,你偏基础性的研究,假设你不购买这一个大型的设备,你不去反复的进行测试,本身的经费需求也不需要很多。如果你做产业开发,你可能要添加一些装置,需要计算平台,要有很多人,要做很多事,你的人力开销也是比较大的,对经费的需求也就比较多。
另一方面,比如说你做基础科学研究,虽然你的课题比较难,但是你三年申请一个,也可能就够了。
AI科技大本营:那您觉得这个体系,会不会有点问题?正是这样的体系导致了基础研究的薄弱?
吴飞:我觉得没有问题,因为这是自然分工、自然选择的结果。因为基础研究的的确确不需要一拥而上,或者每个人都去搞基础研究。反而有一点背道而驰计算机学科这个学科的初衷,不过全是应用学科则长远推动力就没有了,必须有一部分人去做基础、前沿性的研究。
需要将内生力和外推力相互结合起来。但是一般情况下,内生推动力不需要太多的人,这也是一个客观实际。
AI科技大本营:今年7月国务院出台的新一代人工智能规划里面提到了设立人工智能一级学科?
吴飞:一个学科的设立还是比较复杂的。比如说要理清这个学科的内涵,要形成该学科清晰的课程教育体系,以及要明确这一个学科和其他学科的关系。
只有在具备充分得学科独立性之后,该学科才能从其他学科里剥离起来,成为新的学科。
AI科技大本营:您觉得现在浙江大学的计算机学院,未来在哪些方面还需要加强呢?
吴飞:我觉得还是学科的交叉很重要,现在学科之间的独立性还是比较强的,就是分开进行研究,分开进行应用,其实学科交叉还是要进行加强。
第二就是软硬件的协同,现在要么就比如说做算法就做算法,做硬件就做硬件,软硬协同也是非常重要的。这两块也是我们最近在考虑的一些问题。
搞研究的学生要坐得住冷板凳
AI科技大本营:现在的学生,是对这种人工智能基础研究更感兴趣,还是说对于在企业上具体的一些应用更感兴趣呢?
吴飞:大多数学生对应用感兴趣,这个学习得更快,而且能在企业的面试过程,展示出更好的能力。更多企业是欢迎这种能直接上手,能帮着干活的高素质人才的。
AI科技大本营:浙江大学计算机学院,在培养学生上面,有没有一个偏向性,比如更注重培养基础研究的学生,还是更多培养能够立即上手的,能解决企业实际应用需求的学生?
吴飞:这个还是跟导师有关系,导师做的课题,比方说导师研究的是国家自然科学基金项目,是着眼于基础性研究,则其所指导的这个学生可能就更容易往基础研究道路上发展了。
如果导师做的是诸如应用性项目(如863或者现在的重大研发计划),甚至是和阿里、商汤科技和百度等进行合作的项目,可能其指导的这个学生就往这个带着基础应用落地的方向发展了。
我自己想的就是说,偏基础性的研究的项目,与应用型项目相比,总会保持一个较小的比例。
人工智能本身是一个产业推动的技术,它在一定程度上不需要每个人都去做基础性、前沿性研究。更多的研究者,可将基础研究转化为一种能力,体现在和某个应用相结合这上面。在这个方面,它的需求更大。
基础性研究和应用型研究的比例分工,是自然形成的一种布局吧,分工布局。
AI科技大本营:学生中会不会太过急功近利的表现?如果是您招学生的话,您比较喜欢什么样的学生?
吴飞:应该说现在学生的聪慧程度在逐年的提升,因为社会的条件越来越好的,他们从小就在一个信息时代里面长大的,他们的接触面和探索能力,都比以前更加的好了。
但是做基础研究呢,学生要有一定很重要的催动力,就是一定要喜爱所研究的问题。导师交给学生任何一个任务,它不是垂手而得,总是需要经过一番努力,因为你所从事的研究总是存在一些增量的成分。
对于一个具有增量的工作,导师把这个任务交给你了,学生却不感兴趣,就没有后面的故事了。如果学生感兴趣呢,学生就会投入。
对于基础研究来说,很多东西没有人做过,特别是对于博士研究而言,这个就是很枯燥的一个过程。
但是很枯燥的一个过程,你就得要有自我激励,要能够坐得住,要有坐冷板凳的精神。
俗话说:师傅领进门,修行在个人。有一些人修行出来,有一些没有修行出来。
我喜欢招一些数学功底好,爱编程序的学生,并且能吃苦,坐得住,能持续地把时间投入到科学研究上面去的学生。
AI科技大本营:大学四年,您最希望计算机学院的学生能带走什么?
吴飞:我曾经跟同学们讲过,人工智能的发展走过了一条“从知识到数据、从数据到能力”的过程。
对于学生,我希望你在浙江大学读了几年书,你不是带走了几本书,也不是带走了几个GB的数据,应该是带走你的能力。你所习得的能力可以教你怎么针对新的环境,新的任务,去展示你应对环境,应对任务的能力。这个是很重要的。
为了培养自己的能力,在信息时代,学生们要对信息具有敏觉的感悟能力。
AI科技大本营:我们AI科技大本营公众号的读者中,很多是大学的学生,他们也是学计算机的。所以也是希望您能推荐几篇近期您看到比较好的论文,希望看到这篇文章的同学们,会有一些后续的更多的收获。
吴飞:我希望大家在阅读中将广度和深度相互结合起来。比如,为了了解一个热点研究方向,可先去看看该热点方向一些带有survey性质的材料,如国际著名会议的Tutorial、科普性的综述文章。比如,科学杂志(Science)于7月7日推出了“人工智能”专刊,在这个专刊中,专门用了2页从科普阅读角度介绍人工智能的一些核心概念(如强化学习、误差后向传播等)。在有个基本了解的基础上,则可以通过一门课程的学习,来加强理论的提升。计算机专业的学生还有个需要重视的是,要有将理论模型编码成算法的能力,从把公式转换成代码过程中,进一步加深对算法本身的了解。
“作为你的导师,我比你还勤奋”
AI科技大本营:比如说在人工智能或者计算机科学领域,您有比较佩服的这种人士吗?可否分享一个让您感触最大的经历呢?
吴飞:我在UC伯克利做过8个月的访问学者,我访问的这个导师,是美国科学院士、加州大学伯克利分校统计系前任系主任郁彬教授。我当时是从计算机系去伯克利做访问学者,是从计算机专业到统计专业去做访问学者。伯克利的统计系,在美国名列前茅。
这次访问学者生活,对我的帮助比较大。在伯克利,可以更加深刻理解“大隐隐于市”这句话的含义。很多学术上很牛的学者,在伯克利普通的你无法感觉他是一个牛人。
有一个事情,给我留下了深刻印象比较大。我和郁老师的博士后贾金柱博士、韩亚洪博士和庄越挺教授曾经写了一篇文章,请郁彬老师指点、并请郁老师做共同作者,拟投递给AAAI。当我们把论文完成,郁老师回了一个邮件,除了指出这篇论文的不足以及改进建议外。在这个邮件里面,郁老师说了一句话,我至今记忆深刻的。
她说,这篇文章没有达到伯克利的标准。
后来我们又经过了大量的修改,提升了论文质量(论文最终被AAAI录用了)。我后来回味这句话的时候,我就觉得有很多的像郁彬老师这样的教授,你看着很nice的人,她/他们对学术标准的把握很严。这个给我留下比较深刻的印象。
人工智能今天能够这么火,得益于一批这种埋头苦干,勤奋上进的学者们,才迎来了今天。
我们高校的老师,是文化和学术传承中很重要的一环。比方说我自己,我本人在浙江大学人工智能研究所进行学术成长。浙大人工智能研究所创始人何志均老先生以及老所长潘云鹤院士和庄越挺教授均在浙大人工智能研究所发展起到了重要作用。我本人要学习他们为人处事的精神和态度,才能更好的成长起来。
我也知道我以后也会要把这个精神再往下传承下去,我会成为传承纽带上面的一环,要尽力把这一环扣得更准,更紧,把它更好的传递下去。我觉得可能是每个人都应该起到这样的作用,高校有个文化传承的使命,总是要把优秀东西往下传承、发扬光大,希望传承得更好吧。
AI科技大本营:您平时所谓这种精神上的传承,可以分享一件让您印象深刻的人和事吗?
吴飞:潘云鹤院士曾经说过“和为贵,变则通”,这是他在浙大当计算机系主任期间营造起来的一种精神。
浙江大学的前辈们就是这样身体力行,不断的影响周围人。当你在这个环境中,见到了这些事情,,虽然没有一些大道理来告诉你应该怎么做,只要你自己看多了,就学会了。一种精神就被传承下去了。
AI科技大本营:如果说将您教育学生的心法,如果归结为一句话,您觉得可以总结起来是什么?
吴飞:身体力行,比学生更勤奋。
我觉得教育学生最好的方法,还是叫身体力行。
就是说你让学生做到的,你先做到,你让学生投入时间进行研究,你自己要比他们更勤奋。我会和我的学生说,我比你们更勤奋,你们如果有我勤奋的这种态度,那老师就很高兴和欣慰了。
不赞同马斯克,人才是最终主宰
AI科技大本营:alphaGo zero 的横空出世,有不少人提到小数据大有可为,对数据的依赖的减少将大大促进对工业界的快速升级。您怎么看?
吴飞:AlphaGo是在一个规则明确的环境中进行人机博弈的智能程序。虽然AlpaGo Zero没有利用到人类选手的数据,但是其利用了围棋布子和输赢等规则(这也是数据的一种),并不是完全意义上的“无师自通”。大数据驱动的人工智能仍然是当前人工智能能展示出巨大能力的主流方向。从小样本中学习、归纳出有用的知识,进而利用这种知识来指导我们的行为,仍然面临理论模型的巨大挑战,尚未达到支持工业界快速升级的阶段。
AI科技大本营:AlphaGo Zero,在您看来,最让您兴奋的点在哪里?
吴飞:Deepmind公司的围棋程序经历了三代:第一代是结合深度学习、强化学习(即机器自我博弈)和蒙特卡洛树搜索的AlphaGo,其利用了数据驱动学习和从经验中学习等理念;第二代是在第一代基础上,利用强化学习和蒙特卡洛树搜索的AlphaGo Master,这可以看作其站在巨人(即第一代AlpahGo)肩膀上学习;第三代就是AlphaGo Zero,它是没有利用任何人类选手棋谱,通过强化学习和蒙特卡洛树搜索实现的。
仅通过“从经验中学习”的强化学习手段、而不利用海量数据来学习一个强大的模型,是AlphaGo Zero令人印象深刻的地方。但是,我们也要注意到,卡耐基梅隆大学研制的无限注德州扑克程序Libratus,也是从经验中进行策略学习,没有利用人类选手的数据。
AI科技大本营:AlphaGo Zero无师自通3天成为顶级高手,会不会对您之前的观点产生冲击,也就是输,未来机器未必永远超越不了人类,人未必是最大的主宰?
吴飞:AlphaGo Zero是在围棋这一完全信息博弈下战胜人类的一种智能程序。应该说,在可重复、可枚举、执行任务过程及任务胜负结果可清晰描述的活动中,机器智能由于具有强大的记忆功能和搜索能力,其会战胜人类。但是,现在的人工智能更多体现在垂直领域,这里面仍然还有很多难题没有解决。通用人工智能是我们人类所具有的一种智能形式。从现在研究的进展来看,仍然难以看到通用人工智能的曙光。
从长期来说,人的智能和机器的智能会紧密结合在一起,形成混合增强智能。在混合增强智能中,人类智慧和机器智能的优势被彼此结合,完成人类智慧和机器智能所无法单独完成的任务。
但是我要强调一点,在混合增强智能中,人还是智能回路中的总开关,所以人还是最终的智能主宰。
AI科技大本营:所以您其实是不赞同马斯克和霍金他们的威胁论?
吴飞:我不赞成。人工智能现在还处于发展期,至于它未来如何达到人类所具有的通用智能的水平,确实还没看不到。
吴飞教授个人档案:
浙大计算机学院副院长,浙大人工智能研究所所长,浙江大学计算机学院教授,长期从事有关人工智能、多媒体分析与检索、跨媒体计算等方面的研究。
吴飞教授目前的研究方向是,如何采用更好的机器学习和人工智能的方法,对大数据进行理解挖掘。