每个人工智能启动应该有答案的15个问题
人工智能是科技界的新潮流,每天都有公司通过将智能层应用到现有的流程中来脱颖而出。这种趋势无处不在——而不是在一个老点子上推销移动/社交/本地的想法,创业公司正越来越多地使用人工智能来制造兴奋感。
人工智能之所以特别令人兴奋,并预计将在技术上产生革命性的变化,有很多原因。重要的是,你不再需要一个博士学位来应用像深度学习这样的改变游戏规则的技术。随着越来越多的快速和廉价的硬件,公共研究界正在大步前进。进展表现在开源库,降低进入壁垒。
尽管如此,许多人工智能初创公司在不了解人工智能的挑战、限制和可能性的情况下,正处于兴奋的浪潮之中。这里有15个问题,可以让你了解一家公司是如何评估人工智能在其业务中的重要性的。
数据问题
1、你训练什么数据?
数据是人工智能运行良好的基本要求。无论是对图像中的对象进行预测,从句子中对用户的意图进行分类,还是从业务指标中创建建议,都必须有一个精确的数据集。该数据用于训练人工智能,直接告知它所做的决策。一个干净的数据集应该在机器学习优先级列表中名列前茅。
2、你如何收集、清理和标示你的数据?
许多深度学习技术需要一套有监督的训练数据集,这基本上意味着你将人工智能指向你希望它做出的决定。这些问题很重要,因为通常没有现成的标签。此外,像Twitter和Reddit这样的公共数据来源经常需要清理和审查,这样就可以避免无意的结果。
例如,一些非故意的人工智能预测,如种族主义犯罪的AI,参见:http://www.techrepublic.com/article/top10 - ai-failures-2016/。
为了说明这一点,公司可能想用人工智能来预测如何最好地教育学生。机器学习可以用来做这件事,以及一大堆相关的数据。需要的数据需要很好地表示一些事情:
学生的素质和教育之旅。
他们对课程材料的理解。
即使您能够聚合一个数据集,准确地表示上述属性也可能是复杂的。你如何正确地编码和量化一个高质量的教育过程?今天通常衡量的是,测试的能力,可能不是最佳的变量来优化一个现实的公司。
3、你需要多少数据做出初步预测?
许多人工智能公司通过他们的产品收集数据,并承诺随着时间的推移会有更好的预测。这就变成了一个鸡和蛋的问题:在没有大量使用数据的情况下,人工智能很难做出好的预测,而且很难在没有做出好的预测的情况下得到大量的使用。解决这个问题的方法是将领域知识注入到系统中——一套可以用来帮助预测的规则。
在Fireflies.ai,我们使用Deep NLP从文本中预测任务。当我们第一次开始的时候,我们通过收集和手动标记20,000个自己的数据点来生成初始数据集。Krish和我开了一个通宵,把这个接口连接起来,然后给每个数据点标记两次。这是痛苦的。
一般的经验法则是,每个类需要1000个数据点才能开始做出合理的预测;每节课10,000个数据点,预测是不错的。一个类是人工智能预测的不同结果的数量。随着研究的进展,这一数字可能会发生变化——OpenAI在识别手写数字方面已经达到了99%的准确度,每个类只有10个标记的数据点。
情感分析任务有两类(正和负),而在给定的句子中预测下一词可以具有80,000类(可能是下一个字)。一般来说,你拥有的标签越多,你的AI就会越好。
4、你需要多少数据才能做出个性化的预测?
如果目标是根据每个用户的行为进行个性化的预测,那么人工智能初创公司应该意识到,他们需要从每个用户那里得到类似的数据(每个类1000 - 10,000个)。
然而,还有其他技术可以减少数据量,从而开始做出准确的、个性化的预测。其中一种技术是分类——将用户分类为已经存在数据的其他用户的bucket。通过元数据或显式调查快速将用户与其他用户相比较,这是提供个性化结果的快捷方式。
5、你的数据集中有哪些biases?
每一个人工智能初创企业都应该对这些假设有一个明确的认识,并明确地包含在他们的数据中。数据和它提供的预测可能不同,这取决于数据是如何收集的,以及它用于预测的位置。例如,来自AngelList的公司规模和活动数据可能比LinkedIn的数据更倾向于年轻公司。如果该数据用于预测业务度量,那么向用户提供关于所提出建议的上下文的完整信息是很重要的。这些偏见会影响你的产品,因为人工智能(阅读:数学)将沿着它所训练的路线进行预测。
6、您的数据在规模上与您的数据starting up有何不同?
如果你的人工智能持续不断地学习,这是非常有趣的。当你有大量的干净的标签数据时,你会得到什么好处呢?当数据个性化的时候会发生什么?SwiftKey是一个拥有非常成熟数据集的公司的好例子;通过查看你的电子邮件、邮件和社交媒体帖子,他们能够快速了解你的打字风格。在规模上,SwiftKey的数据集让我们在撰写信息时,能够轻松地打字,减少认知上的花费。好像他们的人工智能奇迹般地知道我在键入什么,甚至在它发生之前。
每个Fireflies.ai用户都从常见的会议记录预测开始,但是随着用户通过发送更多会议并对AI建议作出反应来提供上下文,数据会反馈回RNN。这训练人工智能密切地了解每一个使用Fireflies的团队。例如,如果一个团队的客户是汉堡王,那么涉及到它的消息可能是任务,而在另一家公司,同样的信息只是关于食物的闲聊。继续使用,Fireflies.ai变成了一个团队成员,它采纳了你团队的文化和工作流程。
7.您的数据安全策略是什么?
数据安全和隐私应成为每个AI启动的优先事项。为您的服务用户提供清晰的数据政策非常重要,特别是在交换敏感和/或个人身份信息时。应该如何处理数据是否有法律要求?
在所有情况下,用户数据应在传输过程中加密并由防火墙保护。还应该清楚数据的发展方向 - 机器学习是在本地进行还是委托给第三方云服务?最后,一些AI公司需要通过人工验证来补充AI的建议。如果确实如此,用户有权知道。
商业问题
8.人工智能是否真的是您的业务提供的核心?
公司应该理解人工智能对他们正在解决的问题的重要性。准确地说,你正在提供的价值的驱动力?速度快吗?你的AI实际上取代了什么行为?这些问题的答案取决于企业是以消费者还是企业为重点。
聪明或快速并不总是公司最关键的部分。对于像x.ai的Amy / Andrew和Clara Labs的Clara这样的电子邮件助理,关键的一点是1)会议实际上是安排好的,2)两个参与者都不会感到烦恼。一个“聪明和快速”的经纪人在一天结束时并不像人类那样可靠,而且一个错误的会议比多一些额外的会议更令人沮丧。了解业务的核心驱动因素对于衡量AI在哪些方面最有帮助至关重要。
9、你的人工智能有哪些预测或过程?
在了解了什么驱动了你的业务价值之后,这是一个很简单的问题。然而,这必须包括在这个列表中,因为太多的公司在他们的网站上列出了“人工智能和机器学习”。
对创造价值或效率的明确预测的理解是合法人工智能公司的基本组成部分。一个卫星成像公司可以通过跟踪停车场的样子来估计车辆的流量变化。最上面的人工智能层可以预测消费者的消费习惯——这是一个人很难做的事情。
10、你的人工智能如何影响重要的客户指标?
在一天结束的时候,一家盈利性公司需要为用户、员工和相关利益相关者创造价值。衡量人工智能实现对保留和搅动等重要指标的影响是具有挑战性的。是否有可能将人工智能的表现与产品市场匹配、产品设计和客户支持分开?
对AI性能的改进可以通过测试数据集(应该与训练集分开)来理解,并使用基准分析来对数据进行基本预测。您的基准分析可以使用一组规则来评估您的性能,而不需要机器学习。这些改进应该经常与客户指标进行比较,以了解应该在何处分配业务资源。
11.什么是预测的风险?
或者换句话说,AI的预测需要达到您的成功指标有多准确?拥有高风险的企业,比如为自驾车制定交通决策,从第一天开始就需要比人性化标准准确得多。另一方面,只要猜测足够精确和有用,键盘预测不需要100%准确。理解所做出的每个预测的风险可以为决定如何收集数据,如何分配数据科学开发资源以及何时将AI部署到生产中提供信息。
12、有human-in-the-loop吗?
human-in-the-loop是帮助AI做出决定的员工或第三方。人可以标记用户无法获得的数据点,或者人可以在用户接收之前验证AI是否做出了正确的预测。
无论是或否,这两个答案都会从商业角度提出挑战。如果存在human-in-the-loop,则手动标记每个数据点需要多少成本?从AI的改进中获得的价值是否抵消了这个成本?许多公司的希望是,一旦创建了足够大的数据集,数据标签的成本就会下降。值得庆幸的是,像Crowdflower和Scale这样的公司可以帮助创建一个具有按需劳动力的强大数据集。
如果没有human-in-the-loop,你如何确认你的数据是否干净并且预测没有偏离他们想要的位置?你真的明白AI为什么做出决定吗?在这种情况下寻找有针对性的客户反馈; 他们会发现AI无法预测的性能异常。
社会问题
13.你是否产生了你的AI?为什么?
特别是智能会话助理,很早就遇到了命名问题。这些代理可以采用可能与用户形成心理联系的名称。人类是社会生物,尽管人工智能只是一个计算机程序,但与“倾听的屏幕”交谈可能会让人感到安慰。
当给你的AI一个名字时,你会想到Amazon Alexa vs Google Home的案例研究。Google Home是一个没有性别化的名字,每当你说“Ok Google”时,都会引用商业思维。另一方面,Alexa的工程师选择她的名字是因为它的“日常生活中的”熟悉程度以及“有点令人讨厌的Star Trek-ish理由“(来源)。任何男女都可以使用的名字是可用的,但天生的偏见无论如何可能会起作用; 如果你的AI有声音,事情会变得更加复杂。
14、AI会替换人类吗?
人们喜欢问这个问题。虽然在日常业务运营中不相关,但创业公司应为这一对话做好准备。我认为为此形成坚实的意见非常重要,因为在早期人工智能行业工作提供了塑造其发展方向的机会。对许多人来说,成功的AI员工被视为“专家”,可以在意料之外的情况下参考。
15. AI如何影响社会平等?
如果AI流行起来,它可能会取代一系列不同行业的工作。麦肯锡发布了一份报告,表明人工智能可以自动执行45%的付费活动。从事这些工作的人会发生什么?
历史上最近的例子都可以提供一些见解。在工业革命时期,电力织机也在自动化由数百万人进行的传统手工编织时威胁到工作岗位。事实上,新技术使这些人能够专注于一套新技能。市场回应; 他们改变了对更多这些新技能的要求,受影响的工人阶级的薪水实际上上升以适应新的需求。
最近,计算机和手机的兴起使许多流程自动化(如手动存储文件),同时为Dropbox等服务创造了新的市场。同样,人工智能的不断进步可能会增加我们对效率的需求,并使我们成为更大的消费者。
结束语
这些问题不应该让激情四射的创始人望而却步,而是激发他们。有很多挑战需要解决。