作为AI产品经理,我们到底在优化什么?
大数据文摘出品
作者:Guy Molho
编译:张强、睡不着的iris、周素云
用户体验与人工智能(AI)之间有什么样的关系?这种关系对产品经理而言又意味着什么?
这两个问题非常重要,因为它会影响产品的用户体验及其价值主张。
本文作者Guy Molho,是一位经验丰富的产品经理。曾经用了15个月的时间,在没有涉足太多细节的情况下,为B2B公司的客户成功团队开发了基于AI的软件解决方案。
在文章中他提到,产品经理需要了解她的客户,需要了解自己的工作环境、使命、想要实现什么以及挑战,然后才能设计出最能满足这些需求的目标解决方案。
以下是他对“作为AI产品经理,我们到底在优化什么?”问题的回答,enjoy☟
对于产品经理而言,AI代表是什么?
产品必须解决现实世界的问题。技术和实施细节应该为产品服务,并且对可用性的影响最小(至少在软件层面)。AI是一种解决问题的实现方法,但其预测性对用户体验和可用性有重要影响。
当一家公司为任何市场或类别设计基于AI的解决方案时,它总要扪心自问,我们为什么优化产品?我们是否正在优化准确度、阳性预测值或命中率?或换句话说,是否能优化精确度或召回率?回答这些问题至关重要,因为它会影响产品的用户体验及其价值主张。
作为一家开发基于AI的解决方案的初创公司的产品经理,我每天都会考虑这个问题,并根据决策制定我们的解决方案。
召回率和精确度
召回率和精确度听起来很熟悉,也许熟悉到忘记它们是什么!精确度和召回率是统计术语,用于衡量算法返回结果的关联。这些术语有官方学术解释,但我想通过一个例子来解释一下。
天气预测
假设我有一台预测明天是否会下雨的机器。如果明天下雨,机器返回“是”,如果不下雨,则返回“否”。我们连续100天运行机器并得到以下结果:
- 机器预测会下雨10次
- 其余的90天它预测是不下雨
现在我们将预测结果与实际的天气进行比较:
在它预测下雨的10次中,的确下雨了。预测非常精确。有多精确呢? 在10次预测中,10次下了雨→10/10。我们的精度为100%。
这是否意味着我有终极的下雨预测器?这并不确定。让我们看看其他90天。
当我们计算下雨天的总数时,我们发现实际上总共有20个下雨天。这意味着什么?机器召回(预测正确)了20个雨天中的10个雨天→10/20→50%。所以它预测了50%的雨天,但它也错过了其中50%。
现在,你认为我的机器仍然很棒吗?
来源:Unsplash
让我们考虑极端情况。我的机器坏了,每天它都说明儿会下雨。得到的结果:
- 下雨-100天
- 不下雨-0天
现在让我们再次评估结果:
机器现在不那么精确了,因为在它总共预测的100次中,实际上只下雨了20次→20/100→20%。
但是从真正的20个下雨天考虑,机器正确预测了全部20个,即20/20→100%召回率。
现在假设你可以去商店购买上述机器之一,您更喜欢哪台机器?更精确的那个,即如果它说要下雨,你可以很确定,但会错过许多下雨天;还是不会错过任何下雨天,但很多其他日子都会预测错误的机器?
答案不是那么直截了当。也许对于降雨预测是这样,但对于许多其它的基于AI的应用来讲,那并非如此。
这也许有些绕,不过没关系,我创建了混淆矩阵,也许能帮助你对事物分类并计算精确度和召回率:
精确度= TP / (TP+FP)
召回率= TP / (TP+FN)
天气预测—机器A
精确度=10/(10+0) = 10/10 = 100%
召回率=10/(10+10) = 10/20 = 50%
精确度=10/(10+0) = 10/10 = 100%
召回率=10/(10+10) = 10/20 = 50%
天气预测—机器B
精确度= 20/(20+80) = 20/100 = 20%
召回率= 20/(20+0) = 20/20 = 100%
精确度= 20/(20+80) = 20/100 = 20%
召回率= 20/(20+0) = 20/20 = 100%
那么,你在优化什么?
现在,当我们真正了解差异时,我们应该如何优化我们的模型和产品? 精确度或召回率?大多数时候我们必须选择其一,精确度和召回率都高几乎是不可能的。
优化什么的决策取决于许多因素:心理、经济、错误成本、遗漏成本、声誉和时间等等。
让我们来看三个真实场景并讨论一下:
癌症检测
作为一名患者,你宁愿被发现患有癌症并开始治疗,然后发现没有患病(假阳性)?还是当已经来不及治疗时发现你患有癌症(假阴性)?
如果你是健康保险公司,你的答案是否会改变?你会资助所有不必要的治疗吗?你会提高保险费以不错过任何人吗?作为一名医生,您是否会冒着声誉的风险去错过检测?
至少作为病人,没有人想错过被检测。因此,当构建检测癌症的产品时,优化召回率(避免假阴性)将更有意义。
机场安检
作为乘客,你宁愿在漫长的警戒线中等待,以免有危险意外通过安检吗?还是更愿意快速通过这些检查,并承担枪可以走私到飞机的风险?监管者肯定会选择避免风险。
Netflix推荐
作为用户,你更愿意获得高度相关的推荐,而不是可能受欢迎但不适合你的一般内容。因此,在这种情况下,产品要优化精确度(避免假阳性)。
我们可以讨论几十个例子,并尝试了解产品要优化什么,以及在与之交互时,它如何影响整体的用户体验。
客户流失预测
我们开发了一款基于AI的产品,用于预测B2B公司的客户流失。我们使客户成功团队能够将他们的工作重点放在真正重要的客户身上,并得到更好结果。
优化精确度意味着产品将精确定位一个非常有针对性的名单,该名单包含面临流失风险的客户,且没有人被错误地划归其中。朝着这个方向的困难是缺少一堆会流失却没被检测到的客户。
缓解这种情况的想法是将列表拆分为几页,其中第一页包含最相关的客户。如果用户想要探索更多,则可以进入下一页。Google搜索结果提供了这样的体验,首页包含最相关的结果。如果你想探索更多,你也可以查看其他页面。
优化召回率意味着产品将不那么敏感,并且会生成面临流失风险的客户的更长名单,并确保我们不会错过任何人。这里的缺点是该列表会包含误报,即一些不会有流失风险的客户。
减轻这种情况的办法是将列表与其他客户特征相结合,这些特征可能会对其风险(例如优先级)提供更多提示。
因此,作为产品经理,我需要向客户了解,他们是更容忍假阳性还是假阴性,他们期望从产品中获得什么样的体验?是否有足够的资源来处理流失的客户等等。
相关链接
https://towardsdatascience.com/what-are-you-optimizing-for-17c4406544ec