[转]从人工智能到统计机器学习
今天一天收获颇丰,我在微软亚洲研究院访问时的老板,机器学习领域的大牛,李航研究员来工大讲学了,错过了上次与其直接交流的机会(上次他来时,我恰好去韩国开会),这次可坚决不能放过。于是,一大早我就去了教室,结果还记错了时间,早到了半小时,呵呵
不过我认为绝对不虚此行,大牛就是大牛,谈古论今,旁征博引,整个上午的讲座充满了趣味性,将人工智能进行了系统的回顾和展望,并focus到统计机器学习,这个目前人工智能领域最热门的话题上来。
他首先根据自己的经验,给AI一个工程化的定义,就是机器能够类似于人的能力和行动,在给定输入的条件下,输出一个结果。最典型的例子就是TuringTest。因此说AI更偏向于工程,而非科学(数学化的自然)。
另外,他提到的KarlPopper's的Refutability(反证不可能)哲学思想很有意思,大概意思是说,如果一个命题没法证反,比如社会学,历史学等,就没有研究的意义了。此人在西方很出名,但是由于他批判马克思主义反证不可能,所以被共产党封杀也很正常了,呵呵
三种AI实现的方法:
1)CognitiveScience,通过自省的方法实现AI,这个基本上很难,因为人毕竟很渺小,大多数的东西,只知其然,不知其所以然,也就是说必要条件可知,但是充分条件很难知道了。
2)PhysicalScience,通过研究人脑的物理现象,如脑电流等实现AI,这就更困难了,就像我们如果想要弄清楚CPU的工作机理,只通过测量CPU的电流,电压等参数一样,基本不可实现。
3)Simulation方法,以目前人们的认识来看,就剩下这样一种相对可能的方法了,说其相对可能,是因为和上面两种方法比较起来,这种方法更容易实现,效果也更好。但是模拟的方法很难抓住本质,因为多数事物都是横看成岭侧成峰,只从一个片面的角度对其模拟,往往是一叶障目,不见泰山。
为什么说AI比较难呢?
1)ConceptHierachy很难获得和定义。Wittgenstein's"game"例子,也就是对于各种“game”,很难找到共性。
2)Inference过程难。人往往能够进行快速,模糊的推理,而机器没有这个能力。
3)智能也会受到Language的影响。Dani人对颜色的认识就三种,他们的智力和其他种族的会有差异。
4)人类Generalization的能力很强,可以举一反三。
5)人类Discovery的能力很强。Hanson's"PatternofDiscovery",讲述了人类进行科学发现的时候,往往是心中有一种模式了,然后才来证明。联想的自己的研究经历,确实也是这样。比如做实验,往往是证明自己方法的有效性,而不会去证明其无效。
说道AI的趋势,大概有以下几个(面向应用):
1)统计机器学习;
2)Datadriven;
3)Task-oriented;
4)HighPerformanceComputers
后半部分讲的是统计机器学习,由于以前听过,这里就不详述,简单说说其中的一些闪光点吧:
统计机器学习的三要素:
1)模型(Model):假设(Hypothesis)
2)策略(Strategy):损失函数优化(OptimizationofLossfunction)
3)算法(Algorithm):寻找最优模型(Findingoptimalmodel)
下午重点实验室的老师和博士生与李航研究员座谈,主要就是关于MSRA新成立的STC的介绍以及李航博士的研究课题。还讨论了NLP4IR方面的东西。其中一个启发,就是我们为什么不做一个简单的校园网搜索引擎,然后进行QA等方面的试验,进一步迭代提高系统的性能呢