SACC 2018十年沉淀之人工智能篇:企业新场景下的AI应用落地实践
人工智能的概念已经被讨论了很多年,终于进入广泛应用落地阶段,这也是目前整个行业普遍关心的问题。人工智能,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,它是一个赋能技术,本身并不带任何的商业场景,因此人工智能与商业场景的完美结合落地,成为了各大企业棘手性难题。
10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。其主线4人工智能(上)专场,来自饿了么、优酷、搜狗-搜索的几位技术专家为大家分享了AI应用落地实践,满满技术干货等你观摩!
饿了么高级算法总监李佩:线上线下融合场景中的图像视觉技术
饿了么作为一家以线上交易与线下履约为核心的本地生活平台,催生了大量的线上线下融合场景中的图像需求。李佩老师表示,过去十年,各大企业不同场景的应用相继落地,饿了么逐渐将线上线下服务融合于一起。线上线下融合与传统的线上到线下的订单流程是不一样的,在联合打通的过程中,图像识别技术起到了至关重要的作用。
大会上,李老师向大家分享了饿了么线上线下融合场景中图像视觉技术在目标检测、文本识别、三维重建三大关键技术领域中的应用。
在目标检测领域, 李老师表示,2010年之前,目标检测算法都基于非深度学习。直到2014年,深度学习被引入目标检测算法。目标检测主要算法——两步法中第二阶段R-CNN便是初步引用深度学习的算法阶段。但后续R-CNN也会暴露出一些问题,例如计算费时,Selective search 产生的候选框数量仍然过多(默认2000个),且每个候选框都需要单独过一遍 CNN,前向计算有大量冗余。其后对R-CNN不断进行优化,继而出现了优化版SPP、Fast R-CNN、Faster R-CNN。不但结构简化了很多,性能得到加速,还实现了端到端的训练。
一步法中,用的比较多的是SSD,李老师表示,即便没有学过图像识别的同学也应该听说过SSD。SSD是对YOLO的改进,将YOLO变成一种反复的循环结构。
文本识别领域, 李老师表示,在线上线下的融合场景中,传统的OCR的效果比较差,应对OMO场景的大量手机照片显得力不从心。目前常用的是基于深度学习的OCR,实现端到端(end-to-end)的检测,减少中间环节与误差积累,这种OCR有较强的适应能力,人工规则少,自动化程度高。
目前,饿了么一直在无人配送领域进行着深度探索,其中复杂场景中的三维重建技术扮演了一个核心角色。在解决问题的过程中李老师提到了一个关键性技术——光速平差(Bundle Adjustment),因为对相机参数估算不准,2D的特征点映射回3D域,与真正的3D点位置会有偏差。光速平差可以观测 n 个视角 m 个轨迹的数据,寻找使误差平方和最小的相机参数。
优酷高级总监蔡龙军:文娱大脑的机器感官决策能力融合与探索
人类对于通过自身视觉,听觉等感官能力来接触世界,理解世界,以及思考世界,这造就了人类不断的抽象能力和知识总结能力,从而形成了不断沉淀的知识积累。文化娱乐的形式自人类远古时候就有,这些娱乐也是多种感官的综合结果,AI发展到今天有很多让人惊喜的感官能力,如何融合这些能力,具有知识沉淀和辅助决策能力,让这些能力更好的与业务相结合,产生商业价值,是待解课题。
蔡老师表示,如今行业娱乐化,中国用户消费脑洞越来越大,支持的范围越来越广,表达的形式越来越随意,对事情理解的关联系性越来越强,继而随之,内容也变得多样化。这样的背景下,想要把控文娱,需要理解整个互联网和文娱的相关数据。
如今,AI已经发展到了第三个阶段,成为了一种实用性的技术,我们都在考虑用AI建立一个行业大脑。目前,各家公司都有自己的关于大脑的思索和建设,但大多数的公司对大脑的建设是以变成能力体系和基础设施为主,在这个产业中,我们考虑能不能把它变成在应用层上的深入和应用,这才是互联网下半场我们需要重点去解决的问题。互联网下半场的未来是AI,AI打通用户和产品之间桥梁将是主旋律。
在NLP能力建设领域,大家比较关注的一个问题是序列标注问题,一般的思路是先标注一些语要,先人工再智能。优酷文娱大脑团队在该方面也做了很多尝试。一个思路是用一些方式、规则建立一个体系,把标注的问题量减少,然后建立端到端的模型。
大家在表达一些内容的时候,会有一些规则,通过这些规则建立一个基本的库,通过这些库,建立一个语言模型,把内容学出来,然后进行简单分类,当库较大的时候,也可以用监督模型学习,这样可以减少人工的标注。
搜狗—搜索高级架构师杨东旭:搜狗离线机器翻译应用实践
杨东旭老师表示,如果说深度学习是要一艘火箭,深度学习的模型就是火箭的发动机,海量的数据就相当于火箭的燃料。一个好的深度学习模型既要有好的模型,还要有足够多的高质量数据。
移动设备上的人工智能技术对模型大小和计算性能都提出了很高的要求,为了能在移动设备上进行离线的机器翻译,搜狗翻译做了大量的尝试。
杨老师表示,在离线机器翻译模型训练中,搜狗设计了小型的神经网络,以确保离线翻译能提供精准结果的同时具有更快的速度。同时充分利用了搜狗在线翻译系统的优势,让离线模型学习在线翻译系统的结果,通过这种知识提纯的方式,避免了学习杂乱无效的信息,让小的模型能够学到更有价值的信息。同时进行模型量化,以导出更小的模型。
在工程实现上,针对移动端arm架构特点,采用int8进行模型的存储,降低了内存的使用,计算过程中则使用int16,利用neon指令充分加速提升计算性能,在保持精度相当的情况下大大加速了离线计算,让应用在端上运行更顺畅。
“十年磨一剑,砺得梅花香”,第十届中国系统架构师大会准备了三天传统技术大会演讲,两天深度主题培训,更多精彩议题欢迎访问大会专题页面(http://zt.it168.com/topic/sacc2018/)。