Ian Goodfellow地图算法完善识别八百亿街景图文
大数据文摘作品,转载请注明来源
翻译 | 姜范波 Aileen
导读:
2014年,还在谷歌做暑期实习生的Ian Goodfellow开发实施了阅读街景图中路标的数字的方法。如今,新的一群谷歌实习生借助深度学习和TPU的强大运算能力完善了大神当年的算法。
新的机器学习框架下,谷歌地图可以准确识别超过800亿战的街景视图图片中的文字, 为十多亿谷歌地图用户创造更好的体验。
Ian Goodfellow自己也发推特支持谷歌地图新算法,缅怀当年自己做实习生的创作
识别并提取图片有效信息是谷歌地图发展的新方向之一
谷歌地图每天都会向数百万人提供有用的向导、实时交通信息和商业信息。 为了提供最好的用户体验,这些信息必须不断地反映持续变化的世界。 虽然街景汽车每天收集数百万张图片,但是无法手动分析迄今为止收集的超过800亿张高分辨率图片,以便为谷歌地图找到新的或更新的信息。 Google地面实况团队(Ground Truth team)的目标之一是使我们可以自动从含有地理位置信息的图片中提取信息,从而改进谷歌地图。
在《从街景图片中提取基于注意力的结构化信息》论文中,我们描述了在许多国家使用深度神经网络自动地从非常具有挑战性的街景图片中准确读取街道名称的方法。 我们的算法在具有挑战性的法国街头标志(FSNS)数据集上实现了84.2%的准确性,显著优于以前的最先进的系统。 重要的是,我们的系统很容易扩展,以便从街景图片中提取其他类型的信息,现在,它可以帮助我们从商店门面图片中自动提取商店名称。 我们很激动地宣布,这个模型现在是开源的!
来自FSNS数据集的街道名称示例,由我们的系统正确标记。 同一个标识最多提供四个视图。
自然环境中的文本识别是一个具有挑战性的计算机视觉和机器学习问题。虽然传统的光学字符识别(OCR)系统主要集中在从扫描的文档中提取文本,但是由于自然场景获取的文本存在视觉伪像(如失真,遮挡,方向模糊,杂乱的背景或不同的视角)而更具挑战性。解决这一研究挑战的努力源自2008年,当时我们使用神经网络来模糊掉街景图片中的面孔和车牌,以保护用户的隐私。从这个初步研究中,我们意识到,使用足够多的带标签的数据,我们不仅可以使用机器学习来保护用户的隐私,还可以通过获取最新的相关信息来自动改进谷歌地图。
实习生牵起街景数字数据集阅读方法项目
2014年,谷歌的地面实况小组发布了最新的街景数字(SVHN)数据集阅读方法,该方法由当时的暑期实习生(现为Google员工)Ian Goodfellow实施。这项工作不仅具有学术意义,而且对制作更为准确的谷歌地图至关重要。今天,全球有三分之一以上的地址由于采用了这一系统而得到改进。在一些国家,如巴西,该算法已经改善了谷歌地图中90%以上的地址,大大提高了我们地图的可用性。
理所当然地,下一个步骤是将这些技术扩展到街道名称。为了解决这个问题,我们创建并发布了法国街名标志数据集(FSNS),这是一个超过100万个街道名称的大型训练数据集。 FSNS数据集是一项多年努力,旨在允许任何人在具有挑战性和真实用途的情况下改进其OCR模型。 FSNS数据集比SVHN大得多,更具挑战性,因为对街道标志的准确识别可能需要组合许多不同图片的信息。
这些是由我们的系统通过选择,或结合对图片的理解而正确标记的具有挑战性的标识示例。 第二个例子本身是极具挑战性的,但该模型在之前学习了一种语言模型,使之能够消除模糊性并正确阅读街道名称。
通过这个训练集,谷歌实习生Zbigniew Wojna 2016年花了一个暑假,开发了一个深度学习模型架构,自动标注了新的街景图片。 我们的新模型有一个非常有意思的优点,它可以将文本标准化,与我们的命名习惯保持一致,并且可以忽略无关的外部文本。
在这个例子中,模型并没有被混淆,因为有两个街道名称,正确地将“Av”标准化为“Avenue”,并正确地忽略了数字“1600”。
项目触角仍在不断延伸中
虽然这个模型是准确的,但确实显示了15.8%的错误率。然而,在分析错误案例后,我们发现其中48%是由于地面实况错误,突出表明该模型与标签质量相一致。(对错误率的完整分析可以在我们的论文中找到)。
这个新系统与提取街道号码的系统相结合,使我们能够直接从图片创建新的地址,我们以前不知道街道的名称或地址的位置。现在,只要街景汽车在新建的道路上行驶,我们的系统就可以分析成千上万的被捕获的图片,提取街道名称和数字,并在谷歌地图上自动正确创建和定位新地址。
但是,自动创建谷歌地图的地址是不够的——我们还希望能够通过店铺名称为商家提供导航。在2015年,我们发表了《街景图片大规模发现商家》的文章,提出了一种在街景图片中准确识别商店店面标志的方法。然而,一旦检测到商店门面,仍然需要准确地提取其名称以供使用——模型必须确定哪个文本是商家名称,哪个文本是不相关的。我们将其称为从图片中提取“结构化文本”。它不仅仅是文本,它还是附有语义的文本。
使用不同的训练数据,用于读取街道名称的模型架构也可用于从商家外观图片中精确地提取商家名称。在这种特殊情况下,我们能够仅仅提取商家名称,来验证谷歌地图中是否已经存在该商家,从而使我们能够获得更准确和最新的商家列表。
缺失位置信息的情况下,系统能够预测图片中商店的名称为“Zelina Pneus”。模型没有被商店所卖的轮胎品牌(Firestone)所迷惑。
在超过800亿的街景视图图片中应用这些大型模型需要大量的计算能力。 这就是为什么地面实况团队是今年早些时候宣布的谷歌 TPU的第一个用户,这样大大降低了我们的计算成本。
人们依靠谷歌地图的准确性来获得帮助。 在保持谷歌地图与城市不断变化的环境保持一致的同时,道路和商家提出了一个远未解决的技术挑战,地面实况团队的目标是推动机器学习中的划时代的创新, 为十多亿谷歌地图用户创造更好的体验。
后台回复“谷歌”二字下载论文全文。
来源: Google Research Blog