我从AICC大会归来,带出一些机器学习应用真实案例给你!

点击上方关注,All in AI中国

作者:Cecelia Shao

我从AICC大会归来,带出一些机器学习应用真实案例给你!

纽约Strata数据大会的主题演讲会场

如今,围绕机器学习和人工智能的大多数讨论都集中在诸如Dota的计算机化播放或现实语音合成之类的事情上。虽然这些领域具有现实价值,但人们对机器学习以及实施实际管道所带来的挑战并没有足够的重视。

https://ai.googleblog.com/2018/03/expressive-speech-synthesis-with.html

由于框架不灵活、缺乏可重复性、协作问题,以及不成熟的软件工具,机器学习团队仍在努力利用机器学习。

在过去的一个月里,我参加了O'Reilly Media公司举办的人工智能会议和Strata数据大会。许多行业巨头参加此次大会,并召开了很多会议和论坛,我总是对选择参加哪些会议感到为难,虽然有许多不同的选择(这里是The Muse撰写的一本很好的指南)。但我个人倾向于参加围绕应用机器学习的会议,这些会议涵盖实际案例的实施措施。

这些应用的机器学习演示很有价值,因为:

  • 演示者通常来自构建实际管道并处理特定要求的团队。
  • 内容对于团队经历的失败方法和痛点是真实的,即使在以后的迭代中也是如此。
  • 业务指标(例如支持票据损耗率、客户满意度等)与机器学习模型之间存在真正的联系。

我认为在此次大会上最好的会议中Uber和ZocDoc公司召开的会议。在这篇文章中,我将阐述这两个会议的主要内容,以及企业团队如何将这些课程纳入自己的机器学习工作流程。

会议内容

Uber公司和ZocDoc公司都具有颠覆性的业务模式,但这两家公司都将机器学习作为竞争优势和改善用户体验的方法。

Uber:通过自然语言处理和深度学习提高客户支持

Uber公司仅在2017年提供了40亿多个服务,人们可以想象Uber公司的支持系统需要具有多大的可扩展性。

在Uber公司的支持下,其机器学习团队希望通过客户服务代表(CSR)推荐三个最相关的解决方案,其实质上是一个名为"人机回圈"(human-in-the-loop)"的模型架构,其名称为客户支持票务代理(COTA)。

Uber的机器学习团队决定创建并比较两种不同的模型管道以扩展支持:(1)COTA v1将多类别分类任务转换为排序问题;(2)COTA v2使用称为编码器的深度学习方法-编码器组合解码器。

在人工智能大会上,来自Uber公司团队的Piero Molino、Huaixiu Zheng和Yi-Chia Wang做了一项令人难以置信的工作,逐步构建了他们的模型架构,以及了解了这两种不同方法对收入和票务处理时间的影响。

我从AICC大会归来,带出一些机器学习应用真实案例给你!

你可以在这个网站上看到Piero的更多作品:http//w4nderlu.st/publications

我从AICC大会归来,带出一些机器学习应用真实案例给你!

Uber的支持用户界面(UI)对三个建议的答复通过COTA模型浮出水面

这两个模型都会提供票证、用户和旅行信息,以建议客户服务代表(CSR)的票证分类和答复模板(答案)。

你可以在下图中看到两种模型的体系结构。总而言之,COTA v1采用随机森林模型将分类算法与逐点排序算法相结合,而COTA v2利用深度学习架构,可以通过优化几种不同类型的编码特征(文本、分类、数值、二进制)的损失来学习预测多个输出。该团队对每个模型进行了超参数搜索(使用COTA v1进行网格搜索,使用COTA v2进行并行随机搜索)。

我在此建议阅读他们的论文,以获得全套细节和实施决策:

https://arxiv.org/abs/1807.01337

我从AICC大会归来,带出一些机器学习应用真实案例给你!

Uber团队为两个版本的COTA设置了A/B测试,其中COTA v2的准确度比COTA v1高出20%-30%

从特征工程到预测,Uber团队的地图将如何处理不同的输入,以填充CSR团队的回复。

Uber团队能够将他们的模型的影响与A/B测试(A/B测试的良好资源)和围绕他们的支持体验的客户调查进行比较。该团队最终发现,在A/B测试中,COTA v2比COTA v1准确率高出20%~30%。COTA v1减少了约8%的处理时间,而COTA v2减少了约15%。虽然这两种方法都有助于提高客户满意度,但很明显,COTA v2是更好的架构。

我从AICC大会归来,带出一些机器学习应用真实案例给你!

Uber的演讲展示了如何将机器学习集成到客户支持等流程中,这是一个迭代过程。他们必须测试不同的架构,并围绕影响准确性的性能做出决策(考虑到合理的错误)。

Zocdoc:逆向工程人工智能原型和再现性之路

ZocDoc是一项在线医疗预约预约服务,通过整合有关医疗实践和医生个人时间表的信息,为最终用户提供医疗保健搜索平台。

我从AICC大会归来,带出一些机器学习应用真实案例给你!

https://conferences.oreilly.com/artificial-intelligence/ai-ca-2018/public/schedule/detail/68656

ZocDoc团队在用户旅程的一个非常具体的部分进行了试验:根据他们的保险范围寻找网络医生。

对于ZocDoc的用户,寻找网络内医生可以显著节省就医费用。通常情况下,如果你访问网络中的医生或其他提供者,所支付的费用少于去医院的费用。

https://www.ehealthinsurance.com/ehi/help/newhelpcenter?entry=faqId=HI1;categoryId=HI1-11;entryId=1

ZocDoc团队建立了一个保险卡检查器,允许患者扫描他们的保险卡图片,然后从卡中提取相关详细信息,以检查是否涵盖了特定医生和特定程序。

ZocDoc的图像识别任务是困难的,这是因为:

  • 用户提交的图像通常分辨率较差,且大小不同(由于缺乏格式限制),导致训练数据质量较差。
  • 保险卡包含大量其他类型的信息,有时可能会重复会员ID。
  • 团队必须快速构建原型,然后将其流程转换为可重现的流程。

在AI Conference大会上,ZocDoc公司数据科学主管Brian Dalessandr和高级首席软件工程师Chris Smith通过遍历模型架构的不同阶段概述了这些技术挑战(见下图)。

会议中最有趣的部分是Chris Smith描述了团队决定完全拆除原型所需的基础设施,因为可扩展性和可重复性问题。团队很难识别和跟踪关键模型工件,例如所使用的超参数,软件依赖关系,以及迭代时的更多信息。

有关特定模型实现的更多详细信息,你可以在此处阅读ZocDoc关于此项目的原始博客文章:

https://www.zocdoc.com/about/blog/tech/making-sense-of-insurance-cards-using-deep-learning/

我从AICC大会归来,带出一些机器学习应用真实案例给你!

ZocDoc公司的MemberID提取模型架构涉及基本分类网络、对齐网络和光学字符识别(OCR)模型。

ZocDoc团队最终能够通过他们的三部分模型管道超过82%的基准精度(用户报告的统计数据)。然而,他们的旅程是围绕数据和模型管理经验的不断迭代和挫折。

我从AICC大会归来,带出一些机器学习应用真实案例给你!

ZocDoc的演示引人注目,因为它表明,即使用户体验中的微小调整也能为客户带来巨大价值,但也需要数据科学家的大量关注,正如博客文章引用的那样:

Akash Kushal说,"我们很快就认识到,获得适合生产级别个人健康应用程序的质量需要更多的独创性和反复试验,而不仅仅是简单地将开源组件串联起来。"

解决实际的机器学习挑战

Uber和ZocDoc的这两个演示文稿说明了实际中的机器学习涉及的不仅仅是使用最新的建模框架。想象一下Chris和Brian在他们不得不重建他们的管道以使其准备就绪时,却意识到他们没有跟踪原型的指标、超参数或代码而感到沮丧。

当今有效机器学习最关键的阻碍之一是可重复性。通过在重新运行过去的实验时减少或消除变化,再现性允许稳健的模型。

在Comet.ml,允许数据科学团队自动跟踪他们的数据集、代码更改、实验历史和生产模型,从而创建效率、透明度和可再现性。

观看Comet.ml如何帮助数千个用户更有效和可追踪的机器学习实验的快速视频:

我从AICC大会归来,带出一些机器学习应用真实案例给你!

想了解更多应用机器学习的例子吗?

  • 在Airbnb上对列表照片进行分类(Categorizing Listing Photos at Airbnb):https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
  • 你如何了解Spotify?(How Does Spotify Know You So Well?):https//medium.com/s/story/spotifys-discover-weekly-how-machine-learning-finds-your-new-music-19a41ab76efe
  • Stitch Fix Algorithms Tour:https://algorithms-tour.stitchfix.com/
  • ZestFinance for underwriting https://conferences.oreilly.com/strata/strata-ca-2018/public/schedule/detail/63947
  • 来自Red Pixie、Techemergence和ranee的ML x营销帖子的应用机器学习的更高级别概述(Higher level overviews of applied ML from Red Pixie, Techemergence and ranee's post on ML x marketing):https://towardsdatascience.com/real-world-examples-of-applied-machine-learning-from-ai-conference-4d4678700c6

我从AICC大会归来,带出一些机器学习应用真实案例给你!


相关推荐