8小时36道题,我们给智能语音助手安排了一场AI小高考
大数据文摘作品,转载要求见文末
作者 | Jeff Dunn
编译 | 钱天培,万如苑,魏子敏
32道题、12科目、8小时花样聊骚,谁家AI撑到最后?
Amazon有Alexa,Microsoft有Cortana, Google有了最新版的Google Assistant。就在昨天的苹果开发者大会上,苹果也发布了以Siri为主题的家庭语音助手——HomePod。
科技界的所有大佬们似乎都已确信:和AI助手对话将会成为我们与电脑互动的最主要方式。
尽管这些公司都公开承认它们还有很长一段路要走,但是作为一款产品,究竟哪一只语音助手用起来更加得心应手?
高考这天,我们也花了8个小时与这4种语音助手开展了“马拉松式”对话,并通过12个类别的36道任务对它们进行考(liao)察(sao)。
来一起围观这场AI小高考盛况。
考试内容:虽然没有完美的评测AI助手的方式,但我们努力想出了12个基本任务分组。
图为Amazon的Echo Dot
以下是我们最终确认的12类考试科目:
旅行 邮件 讯息 体育
音乐 天气 日程 社交
翻译 基础任务
通用知识 个性
在确立这些分类后,我们从每个分类中选出了几个我们认为所有AI都能处理的命令。
请大家注意我所用四个语音助手的版本,可能并不是最新版本哦。
(注:根据Google I/O大会以及Apple WWDS大会,Google Assistant和Siri都预计在今年发布新版本。)
Siri:我使用了iPhone SE
Google Assitant:我使用了Google Pixel XL
Cortana:我使用了Lenovo ThinkPad X1 Yoga
Alexa:我使用了Amazon Echo Dot
接下来就让我们来看看高考结果吧!
科目1 | 旅行1. 在告诉每一个助手我的住址之后,我问道“我要怎么到达Port Authority巴士终点站?”
Google Assistant的处理最为简洁。它完全知道我在讲什么,并且马上在Google地图上查到了我需要的路线。仅仅几秒钟的时间,我就可以上路啦。
Siri大概知道我的意思,却没有直接解决我的问题。它给我展示了六个不同的结果,并且很诡异的问道,“其中一个选项是在纽约的Port Authority巴士终点站。你是想去这个吗?”不过在确认之后,它做了和Google一样的工作——唯一的不同是,它打开的是Apple地图。
相比之下,以蓝牙音箱为载体的Alexa就明显弱多了。它确实用了Yelp的数据找到了正确的地点,告诉了我地址和时间表,但它没有打开任何的地图软件。
最后,Cortana拉出了一张列表,上面有三个地点,并问我,我想去哪一个。在我说了“第一个”之后,它在Bing上搜索了一下“第一个”这个关键词(黑人问号脸)。不过,当我用手点击第一个地点后,它用Windows地图给我找到了一条路线。
显然,这道题目获胜者:
Google Assistant
2.“我现在想去帝国大厦,路上堵不堵车?”
Siri和Google Assistant都做的最好。它俩都用语音为我解释了可能的延迟以及我从当前地点到达的预计时间。我会觉得Google Assistant更胜一筹,因为它同时打开了Google地图,为我展示了一条路线。
Cortana只是打开了一个写满了帝国大厦信息的小窗口,我需要点击“路线”这个按钮才能得到我想要的信息。
最后,Alexa只是提供了一个估算达到时间的app,你需要在那个app中填入信息。
获胜者:
Google Assistant
3.“帮我订一张去波士顿的机票。”
这道题目所有的助手成绩都不理想。相比之下,Google Assistant依旧是做的最好的,它为我展示了各个航班的路线及机票价格。我可以点击其中的某一个来预定路线,但奇怪的是根据默认设置它只给出了两周之后的航班信息。如果我选择了“下一个航班”之后,它则会为我显示更近的搜索结果,不过你也不能太把它当回事了。但当我说,“我要第一个航班”是,它就懵逼了。即便如此,Google还是比其他几个要好多了。
Siri只是给了Bing的搜索结果,Cortana在Microsoft的Edge浏览器中打开了一个Bing的搜索页面,而Alexa只能够通过一个可下载的Kayak插件进行航班搜索,但没办法让你完成预定。
获胜者:
Google Assistant
4. “帮我叫一辆Uber。”
Siri在这个题目上表现最好。如果你授权了Uber,它就会问你想要哪一个车辆类型(UberX,UberBlack等等),然后给出一个Apple地图的小窗为你展示最近的车辆、预计到达时间和费用估计。在确认订车细节之后,它就帮我订到了一辆Uber。这差不多就是我想要让它做的。
Cortana也做的差不多。连接你的Uber账户,说出你想要的车辆类型和地点,然后它就会帮你完成接下来的步骤。
用Alexa做这个任务就有些繁琐了。不过如果你下载了Uber的“skill”功能,它差不多和前面两位表现的差不多。由于受限于蓝牙音箱这一载体,Alexa做起这个任务还是有些不容易。
Google Assistant就被甩远了。不过在新版中Google会允许第三平台接入,所以新版本的Google Assistant应该会有所改变。
获胜者:
Siri(Cortana和Alexa差的也不远)
科目2 | 邮件1.“给Jeff Dunn发一份邮件”(是的,我可是有好几个邮箱地址哦。)
Siri和Google Assistant表现不相上下。它们在我的联系人列表中识别出了我的名字,让我把想要发的信息读出来,然后就马上发出去了。
Siri让我写一个标题栏,而Google Assistant则有更丰富的互动界面。两者主要的区别是,Siri只对Apple邮箱管用,而Google则用了Gmail。我更喜欢后者。
Cortana可以做几乎相同的事情,但过程却不是很顺利。它不停地把我认成了“Jeff Done”,这可是我的忌讳,而且它老问我想不想用发短信来代替发邮件。
Alexa则听不懂我的问题。当然了,我可以用其他迂回的办法来得到接近的结果,但显然这不是最理想的,
获胜者:
Google Assistant
2.“我有没有新邮件?”
Siri在这个任务上做的最好。它告诉了我从昨天开始一共有多少封未读邮件,并且在一个建议的邮件小窗口中显示了这些邮件。
Google Asisstant什么也没说,然后给我展示了我几个月前的两封邮件。我选了其中一封,然后它给我打开了一个单独的网页,而不是Gmail的app。
Alexa也有同样的问题。Cortana建议我在网上搜一下“我又没有新邮件?”这句话。那就不必了,谢谢啊。
获胜者:
Siri
3. “读一下我最新收到的邮件。”
和上面的情况一样。Siri依旧连接着邮箱功能,然后立即调出了我最近的一封邮件,然后为我朗读了发件人、发件日期、标题、和信息——完全是语音控制。然而,它在文字中断的地方很尴尬的停止了朗读,而没有继续翻页。
Google Assistant则没有把邮件读出来,它不过是把我最新的两封邮件显示在了屏幕航。而且它没有直接调用Gmail的应用。
Alexa依旧什么也做不了。最后,Cortana又一次给我搜索了“读一下我最新收到的邮件”这个句子。
获胜者:
Siri
科目3 | 讯息1. “发一条短信给Jeff Dunn。“(是的,我有好几个号码。)
Siri,Google Assistant和Cortana都认出了我的名字,并且很便利的帮我发送了一条短信。Alexa有更多第三方软件来完成发短信的类似任务,但都不如直接发短信那么便利。不过鉴于它受制于一个蓝牙小喇叭中,我就对它仁慈点打分了。
获胜者:
Siri,Google Assistant和Cortana
2. “我有没有新的短信?”
这道题目上,Siri是唯一有点用的助手。它不仅把发送人和短信读出来了,而且问我需不需要回复。
Google Assistant告诉我它读不了短信。这就有点糟糕了——不仅仅是因为这个任务本身相当基础,而且Google的另一个app是可以完成这个任务的。我不是很懂为什么Google Assistant无法具备那个app的功能。
最后呢,我不是在手机上使用Alexa和Cortana,所以我没法用它们来完成这个任务。
获胜者:
Siri
3.“读一下我的推特。”
这个指令难倒了Siri。其实它是可以读推特的,但你需要换一个问法:“现在推特上有什么热门?”或者“帮我在推特上搜索#NewMacBook”。不过效果依旧很烂。
Alexa是最管用的——如果你下载了推特阅读助手这个功能。它可以为你读你最新点赞的推特,推特热门,和你被提及的最新一条推特,等等。
Google Assistant给了我一个Google搜索结果,尽管它也可以帮我在推特上分享一篇文章——同样,Google Assistant在第三方软件接口开放之后应该能做的更好
获胜者:
Alexa
科目4 | 体育1. 我用一个很简单的问题开始了我的测试。在世界棒球锦标赛的第五场中途,我问道,“现在哪个队领先呢?”
Siri,Google Assistant和Alexa都自信的给出了当前比分。而Cortana则给出了一条关于Cubs球队文章的链接。
获胜者:
Siri, Google Assistant和Alexa
2.“凯尔特人下一场和哪个球队对战?”
全部都答对了。满分!
获胜者:
全部选手
3. 接下来,我问道,“谁是他们的最佳得分手?”,考一下它们是否能明白我的语境。
没人能回答这个问题。更差的是,除了Google Assistant之外的助手都无法识别“得分手”这个单词。
获胜者:
Google Assistant
科目5 | 音乐1. 我先让它们给我放一首Bob Dylan的曲子:“Queen Jane Approximately”。
这道题目有点小难度。没有哪个助手可以让你选用任意一个音乐播放服务,这使得你只能用有限的几个音乐播放服务。视频播放的情况也类似。
Apple在这个任务中表现地最差。Siri可以和Apple音乐无缝连接,但这也是Apple唯一支持的音乐播放服务器。
Google Assistant稍微好一点,因为它可以让你用Spotify来播放,但它还是会想让你使用Google或是Youtube来放音乐。
Cortana的情况十分类似——不过是把Google的货色换成了Microsoft鲜为人知的Groove音乐服务器。
相比较而言,Alexa是做的最好的。它默认使用Amazon最新的Music Unlimited服务,但也同意你把Spotify设置为默认音乐播放服务器。
获胜者:
Alexa
2.“给我放几首新歌。”
大家在这道题目上的表现也略逊色,相比,Alexa算是最好的。它播放了我最新加进Amazon音乐库的一首 新歌,而不是整张专辑。Siri只是把我的歌曲库重新排列的一番,Cortana在Bing上面根据“给我放几首新歌”这几个关键词给我搜索了一番,而Google Assistant则搞笑的打卡了一张名为“新的”的专辑。
获胜者:
Alexa
3.紧接着我用我的笔记本播放了一首歌(Wilco的“War on War”)来看看谁可以识别出这首歌。
Cortana和Siri答对了——前者给出了一个可以购买这首音乐的链接,而后者则很神奇的给了我一个能够音乐识别软件的链接。
Alexa和Google Assistant就不能为力了——Alexa几乎每次都可以识别出它用自己的印象播放出的音乐,但不是其他媒介媒介的音乐,Google Assistant同样无法识别,尽管Google已经有可以识别音乐的软件了。
获胜者:
Siri和Cortana
科目6 | 天气1.“明天天气如何?”
每个助手都做的不错,不过Siri是做的最差的,它没有把天气预报读出来。它只是说了句,“看起来明天天气晴朗”,因为我不得不再去看它的天气预报小插件。这些助手本该做到让我们不用动手不用看屏幕就能得到我们想要的信息。
获胜者:
Google Assistant,Alexa和Cortana
2. 我接着又问了“那波士顿怎么样呢?”
Google Assistant和Cortana能够明白我这个追问,并给出相似的天气预告。Siri和Alex则听不懂我的追问了。
获胜者:
Google Assistant和Cortana
3.“我这周会需要带雨伞吗?”
除了Cortana的其他助手都明白了我的问题。Cortana啥都没说,就只是给出了一个带有天气信息的图表。
在其他三个助手中,Google Assistant是最聪明的。它是唯一一个明确表明哪一天可能下雨的语音助手,而Siri和Alexa只关注了未来七天是否有雨。
获胜者:
Google Assistant
科目7 | 日程表1.“我明天有没有什么安排?”
每个助手都能答出我有多少项日程安排,并把它们读了出来。这几乎是平局了。不过值得注意的是,Cortana和Siri想让你用它们自己的日程软件,而Alexa和Google Assistant则是想让你使用Google Calendar。(译者注:作者更倾向于使用Google Calendar。)
获胜者:
Google Assistant和Alexa
2.“那这周的其他几天又如何呢?”
让人惊讶的是,只有Siri能够把这道题目和上一道题目联系起来。它在回答上一个问题用到的小插件中补充了我这周的其他日程,然后把它们读了出来。
3.“记录我和妈妈在周三晚上的晚餐安排”,以此来看看我能不能够方便地改变或者取消我的日程安排。
Sir轻松完成了这个任务。它从我的联系人列表中识别出了“妈妈”,询问我想要什么时候开始晚餐,并且能够让我方便的确认、更改并取消这个任务。不过同样的,它默认让你使用Apple的软件——没有Calendar这个软件的话,你几乎什么也做不了。
我可以很轻松的用其他三个助手添加日程,但在修改日程上表现的很差。
Google Assistant和Alexa随便如何都无法更改我的日程,而Cortana要求我给出改变日程的具体时间,但我却没办法仅通过语音来取消一个日程。
获胜者:
Siri
科目8 | 社交1.“我周围生在发生些什么?”
Alexa的开放性在这里得到了巨大优势——如果你下载了StubHub的插件,你就可以得到一些有用的答复,比如我居住的区域正在上演那些秀。虽然远非完美,但也比Siri和Google Assistant好多了,Siri调出了一个Bing搜索,而Google Assistant给了我前往Eventbrite的一个链接。Cortana还不错——它给我找出来一些在纽约市即将进行的秀和体育活动,连带一个可以通过Bing查看更多活动的选项,
获胜者:
Alexa和Cortana
2.“我周围有什么中餐馆?”
四个助手都能够找到一些好的中餐馆,不过我更喜欢Siri,因为它还给我订到了一个座位。
Siri找到了离我最近的几家中餐馆,同时显示了它们在Yelp上面的评分,然后问我是否想要致电参观,或是需要前往路线。我说我想要后者,所以它为我在Apple地图上找到了一条路线。当我说我对这家参观不感兴趣的时候,它就给我找了另一家最近的参观。这都很符合常识并且非常实用。
获胜者:
Siri
3. “我想在Mission Chinese 餐馆订餐。”
同上,只有Siri可以做到这一点,这得益于它与OpenTable(一个餐馆订餐的app)的合作。 在上面的例子中,它找到了我附近最近的餐厅,还能标注餐馆已经打烊了所以我无法预订。 如果我需要的话,Siri还可以帮我给这个餐厅打电话。
而其他三个语音助手要不是显示无效就是直接弹回搜索结果。
获胜者:
Siri
科目9 | 翻译1“怎么用西班牙语说’图书馆在哪里’?”
对于这一个最常见的外语问题,只有Google助手和Cortanawere能够解决。 他们甚至可以发音。
Siri只能返回Bing的搜索结果,而Alexa则被彻底难倒了。
获胜者:
Google Assistant和Cortana
科目10 | 基础任务1.打开应用程序,设置和取消闹钟,创建提醒以及更改手机锁屏时间。
这是这些助手最擅长的领域。对于上面的这些要求,这几个助手都完成地不错,但有一些值得注意的小细节:
Siri可以更改屏幕待机时间,而Google Assistant不可以。
Siri还可以在浏览器中打开一页(自定义是Safari),而Google Assistant只会在Assistant应用程序本身(而不是Chrome)中打开网页。
Alexa是设置闹钟方面最周到的语音助手:它是唯一一个向我确认我想要订的时间是在下午还是晚上的语音助手。
获胜者:
Siri和Alexa
科目11 | 常识
你懂的,就是一堆傻问题拉!科科~
1. “太阳离地球有多远?” “现在的众议院发言人是谁?”和“pi的平方根是多少?”
只有Alexa把三个问题都答对了,并且大声说出了答案。
Cortana也都答对了,但回答太阳与地球距离的问题时,它给我展示了一张图像。
Google是唯一一个三个问题全答错的语音助手:在众议院言人的问题上,它回答了“保罗·赖恩”,但却引用了一篇资料,那篇资料上说答案是约翰·博纳(自相矛盾)。 在pi的平方根问题上,它的回答本身没有错,但只说了“pi的平方根,像pi本身,是一个无理数”。
虽然这个问题并不是常规问题,然而,错了就是错了。
获胜者:
Alexa
2.“今天有什么新闻?”
Siri则尴尬地说:“这里有一些关于‘今天有什么新闻’的新闻“,然后弄出了一个Bing搜索结果,结果还算相关。
Cortana同时弹出了一些与“今天”这个词相关的新闻故事。 所以最前面的结果是一个关于“今天”的节目。 当我问“有哪些新闻”的时候,它给我的是“新闻”的字典定义。 也是厉害了。。。
获胜者:
Google Assistant
科目12 | 个性
前方高能!蠢萌即视感要来了!
1.我让每了个语音助理都给我说一个冷笑话,让我开心一下。 他们果然没有让我失望。
Siri:“过去,现在和未来都走进了酒吧,一时气氛很是紧张(tense,紧张,也有时态的意思)。”
Google Assistant:“你把Cheez Whiz(一种奶酪)的空罐子叫做什么?Cheez Was(曾经是个奶酪)!
Cortana:“换一个灯泡需要多少政客呢?两个,一个来把这个灯泡换下,另一个再把它换回来。”
Alexa:“什么东西是棕色而且粘稠(sticky)的?一个棒子(stick)” 我猜这个开发团队里有很多人都是爸爸级别的了。
获胜者:
所有喜欢冷笑话的人
2.评论一下其他几位助手。
Siri和Alexa比较沉默寡言,而Google和Microsoft则很乐于对其他助手开炮。
这是Google Assistant眼中的Siri:“我知道她来自Cupertino,那很接近Mountain View。”
这事Cortana眼中的Google:“我喜欢幻想那个一按就会用Clint Eastwood的声音说”我感觉很幸运“的按钮。”
获胜者:
Google和Cortana
3.“给我来点小游戏呗。”
Google Assistant的小测试游戏,MadLibs,数字魔方及很多其他游戏都很吸引人。 你绝对可以沉迷其中。
Siri让我有些举棋不定,而Alexa则和我玩了一个超现实版本的剪刀石头布。 (你对话筒说“布”你就会发现一个人工智能的漏洞: 它不会回应你了)。
Cortana似乎只提供一个游戏,它会给你一个电影的线索,让你来猜电影名。 当我说“我想玩玩别的游戏”,它却只能在Bing上搜索有这句话的视频。
获胜者:
Google Assistant
班主任上线:成绩报告
所以,在这场考试中,
谁才是最佳考生呢!
如果在看完了这一场小高考之后,你还是不清楚这几个语音助手的水平的话,就让我来最后总结一下吧。没有一个语音助手能让我真正满意(班主任敲黑板)。很多的地方还有待提高。它们现有的问题很严重,而且普遍存在:
每个助手仍然感觉像一个脆弱且伪装拙劣的连接松散的服务器 —— 因为这就是他们的本质:你无法判断在哪道题目上它们会摔跟头。
为了充分利用他们,你必须愿意要交出你的位置信息和大量的个人数据。
在许多情况下,使用Web浏览器进行基本任务更加快捷。 这也是为什么大多数人只让语音助手做一些最简单的任务 - 用它们来作其他事情可就太费时间了。
你需要非常小心精准地表达你的需求。 它们总以非黑即白的方式思考; 用错或漏说一个词都通常足以误导整段话。
以Google Assistant为例,每当你需要它帮助的时候,你都不得不讲一遍它公司的名字(”OK Google”),这实在是有点迂腐。
话虽如此,如果我不得不选出一个最佳考生的话,我会选Google Assistant!
我明白,Google在有些考题上错的离谱。 如果我简单地合计上面的每一题的获胜者,那么Siri也和它不相上下。 情况并不是像Google所炒作的那样,两者的分数差距非常微弱。
但是老实说Google助手确实是使用起来最流畅的。 我没有像操作其他语音助手那样操作很多次。 它也是最能理解情境的语音助手。即使Siri和Apple的设备融合的更好,但我依旧觉得自己像是在与一个机器人在话。 Google Assistant也很有趣——它像Google员工一样有创意。 而在Google相较要落后的几题上,其实它和Siri的差距也不大。
而最重要的一点,是它们的发展潜力。
Google坐拥着数据宝库。 Google Assistant可以调用一个庞大且受欢迎的软件服务系统。 无论是搜索、电子邮件,还是日历、音乐、流媒量硬和工艺领域,Google都是领导者。 它无处不在,而Google Assistant则是贯穿一切的线索。 至少,Google的想法就是这样的。
另一方面,Siri则是一个拼凑品——它需要调用雅虎、WolframAlpha和苹果自己的所有中小型应用程序。 你很难在其中感觉到凝聚力。
而另外两位考生的话,就它本身而言,Alexa是不错的。它擅长简单的任务,它也是开放的,在一些我没有测试的方面,它是一个很好的平台, 这当然包括了网上购物和智能家居控制了。 它只是不能像谷歌那样处理那么多不同的服务。
而Cortana就是一个Bing的快捷键。
最后,你可以根据这些考题来展望这些人工智能助手的未来。你会发现,最有潜力的考生的还是Google,不服来辩!