Wider Challenge结果爆出,实时3D对象探测技术发布
大数据文摘专栏作品
作者:Christopher Dossman
编译:笪洁琼、conrad、云舟
呜啦啦啦啦啦啦啦大家好,AI Scholar Weekly第二期与大家见面啦。
AI Scholar Weekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯,文末还会不定期更新AI黑镜系列小故事。
周一更新,做AI科研,每周从这一篇开始就够啦!
本周关键词:开源图像分段数据标记软件;深层卷积;SoTA人脸图像编辑系统;实时3D物体识别。
还记得2018年Wider Challenge吗?现在结果出来啦
大众评判的基准和ImageNet与COCO举办的系列挑战赛,都在逐步推进AI研究的发展。这些举措不但激发了来自学术界和行业内外的学者与开发人员参与其中,还鼓励他们更加深入地进行研究与开发,正是这样的结果激励了人脸(识别)与行人(检测)这些行业举办顶级赛事。
该项挑战的三项任务来自计算机视觉中一些长期存在的挑战以及估计问题,其中包括人脸检测,行人检测和人物搜寻。
结果:挑战总结及成功的解决方案
挑战者将会得到关于以上三项任务的基础数据集,在参与流程的知道小,挑战者需要将他们的模型输出结果上传至公共评估服务器,该服务器分为验证阶段和最终测试阶段,最终胜利的挑战者将由模型的输出表现来确定。
这篇研究论文对提交了有效结果的100多位挑战者的研究思路进行了总结。在人脸检测任务中,获胜者通过整合多重人脸识别预测来设计了一个独立检测器。
在行人检测竞赛中,获胜者提出了一个级联的R-CNN模型与强大的附加结构,用来提高性能。而在人物搜寻竞赛中,获胜者设计了一个级联模型,该模型使用了每个人的脸部特征以及身体特征。除此之外,该研究论文还介绍了前5位获胜者的研究思路细节。
潜在应用与效果
WIDER challenge激励了开发者与研究学者进一步去研究和解决计算机视觉中的关键问题。新的方法毋庸置疑会推动并构建有效的系统,使得人们在人脸检测和物体检测方向中解决一些更为严峻的问题。
原文:
https://arxiv.org/abs/1902.06854v1
用于学习多个视觉领域的深层卷积
深层可分离卷积已被证实非常适合进行标准卷积应用,其中包括图像分类,自然语言处理和嵌入式视觉应用。这项研究则是首次在深层(卷积)中探索其在多领域中的应用,它是基于来自不同领域的共享跨道关系的假设。
为了能在不同领域中进行有效的知识传送,研究人员引用softmax的门控机制,在视觉全能挑战基准上进行了测试,他们采取的方法得分高于目前最新的传统方法的得分。
潜在应用与效果
研究者提出的方法比较经典,易于拓展,可以以较少的算力来训练和适应新的领域。深层卷积同样也可以用来提高特定区域的精度。该方法可以应用于优化计算机视觉、情感分析、推荐系统等领域。
原文:
https://arxiv.org/abs/1902.00927v2
SC-FEGAN :新人脸编辑系统
SC-FEGAN 是一款高端人脸编辑系统。它基于CNN,使用用户的草图和颜色作为输入,来生成并合成高质量的图像,而用户仅仅需要完成简单的任务即可。
为了优化图像不完美的边缘,SC-FEGAN 加入了使用门控卷积的自由形式图像修复(SN-patch GAN),此外,它还训练了GAN与风格损失函数实现高质量的图像编辑。根据这项研究,将SC-FEGAN 在结构和形状的质量方面上述的图像修复方法进行比较方向——使用自由形式的模型产生的效果更好。研究人员在celebA-HQ数据集上对该系统进行了分别的训练。
潜在应用与效果
SC-FEGAN 只需一次通过,即可执行转换和恢复大部分面积的面部图像。它还允许用户自主编辑图像特征,比如发型、脸型、眼睛、嘴巴等等。SC-FEGAN具有推动面部识别应用工作的潜力。此外,它还能帮助生成我们非常需要的高质量的基础图像数据集。
原文:
https://arxiv.org/abs/1902.06838v1
非标记(Free Label)的快速、高质量注解
这篇新发布的研究报告介绍了一个新工具——Free Label,该工具的目标是帮助用户获得高质量的、可以很容易适应不同数据集和种类的注解。这项基于Web的工具,为图像分类数据集快速、高质量的标注提供了一种典型的交互式界面。
为了达到精炼的语义分类,Free Label实现了区域生长分割(Region Growing Refinement,即RGR)算法。RGR可以是完全非监督式的,并且实现起来很简单。不像其他相关算法,它的计算时间和参数化允许极快速的用户交互。由于Free Label实现了一个模块设计并且仅仅依赖于开源库,因此很容易便能被获取。它能够被部署到一个本地或外部的服务器上,允许用户通过私有或公有的方法来做注解。
潜在应用与效果
通过利用Free Label的模块化结构来轻易标注图像数据集,深度学习社区可以很大程度上从中获益。Free Label也可以被调整去帮助对不同数据集的有效分类,此举可以帮助开发更加精确和鲁棒的模型。可以通过短视频教程和一个有趣的、游戏版本的Free Label,去学习如何使用并合理地标注数据集。
原文:
https://arxiv.org/abs/1902.06806v1
代码:
https://bitbucket.org/phil_dias/freelabel-wacv/src
LiDAR FlowNet:用GRU来估计动态流
研究者们最近提出了一个基于高级神经网络2D Map预测方法的动态流LiDAR-FlowNet,它现在可以在来自上一个和目前框架下已存在的Map和未知的Map中估计动态流。
除此之外,为了取得高水平表现,他们已经设计了一个自监督的策略来训练LiDAR FlowNet。这让在2D LiDAR-FlowNet Map上预测下一个动态变得简单明了起来。对于研究者和开发者来说,好消息是这项新方法的测试结果验证了它的有效性。
潜在应用与效果
对人工智能和机器学习社区来说,LiDAR FlowNet能够帮助我们找到一个更便宜的方式去实现高级LiDAR Map预测。这个举措将会刺激所有动态规划应用领域的潜在机会,从而推动整个领域的进步,例如真实世界中自动控制的设计和应用,自动驾驶汽车,角色动画,建筑设计,游戏,分子生物等等。
原文:
https://arxiv.org/abs/1902.06919v1
PIXOR:来自点云的实时3D对象探测
新研究发现了一个新的单阶段检测器模型——PIXOR,可以从像素神经网络预测解码,从而输出实时的、基于3D对象的估计。可以它想成一个为密集的基于3D对象检测设计的完全卷积神经网络。模型输入描述包括鸟瞰的视野网络结构以及一个模型优化方法,该方法是为在自动驾驶中取得平衡感,从而获得高精确度和实时效率而设计的。
研究者在KITTI BEV目标检测以及大规模3D机动车检测基准上证实了PIXOR的有效性。结果显示,对比最先进的卷积方法,PIXOR在超过28FPS运转的同时,能提供高水平的效率和AP(平均精度,Average Precision)准确度。
潜在应用与效果
PIXOR通过增加LIDAR对象和面部识别,为鲁棒的3D对象定位取得了更高的简化度和更低的成本。模型有潜力去实现一些自动驾驶汽车的关键技术,比如实时3D屏重构,自定位和通过语义分析以及面对对象的语义理解让机动车实时响应。
原文:
https://arxiv.org/abs/1902.06326v1
AI黑镜——基于AI技术的人伦小故事
恐怖分子在哪里
在我们共享的线上工作区忽然蹦出了一些字符,不是聊天信息也不是笔记,是一个通知,“相关信息已被上传至RECOG。”
愤怒的一刻——显然,在我们的工作系统中插入这个程序已成定局。就像在星期五下午突然通知要加班一样,对于一个我们没有调查或调试权限的系统,我们当然不可能提出不同意见。同样,在这个问题上,我们的意见并不重要。
尽管这个系统是否能得出有价值的结果还不得而知,但是它工作的方式已经确定了,RECOG可以从我们所有的任务和对话中学习。
之后,很多人的情绪开始从愤怒开始感到惊慌——RECOG的工作界面一直显示“正在工作……”,从来不会拒绝响应。
我们要把RECOG训练成一个目标识别和问题回答的系统。但它不是我们开发的系统,是政府把它从……不知道什么地方带来的,也正因如此,这个东西的访问权限设置非常谨慎。
我只知道我们的工作是,把其中的黑盒内容转变成逻辑清晰的系统。
但是,我们无法查看它的大部分代码,只能通过精心设计的问题测试它。
所以我们给它提供了大量的城市图像。他们用绑在无人驾驶飞机上的高分辨率摄像机收集了好几天的资料,为了了解这些图像中的人是谁,或者至少了解他们的工作。
当时我们正在解决校准问题,从最简单的问题“那里有多少男性穿着红色夹克、戴着墨镜?”,到复杂的问题“哪个热狗摊最火爆?”系统的回应非常精彩,以至于有人忽然问出了那个问题。
那时只有我们三个人还在做这个项目。指令的来源无法追踪,所以我不知道这个问题的具体内容,但我知道接下来发生了什么。
“工作……完成。找到匹配目标。”
在一张巨大的城市鸟瞰图像中,一个小红框迅速放大并填充了我们面前的显示器。
- 人类概率:99%
- 男性概率:91%
- 罪犯概率:77%
- 恐怖分子概率:70%
问题是,是谁建立了这些类别?
我们之后都没有再说话,各自回去工作,假装什么都没发生。
我之后听说了RECOG犯了个大错,那天它锁定的人是个FBI探员,被派跟踪并吸引国内的潜在恐怖分子现身。他当时正在去见一个他追踪的人的路上。而这马上被RECOG关注到了。
无论发生了什么,我们那天傍晚就接到电话,被告知接下来的这周我们可以休息了,而在那之后不久,我们又被告知接下来可以一直休息,因为他们把这个项目撤下来了。我猜他们认为这个项目已经不适合再交给我们做了。
但是,我一直想知道RECOG下一步会出现在哪里?
我一直想做一个鸟类识别的系统。虽然真实的鸟味道不好闻、很吵并且总需要被喂食,但鸟类的图像是很美的。我的教授认为这个项目会很简单,我只需要提供一个夏天的时间就能完成。
但现在,我却在想,政府的这些步骤会给恐怖分子提供些什么?
在人类历史上的一些特殊时期,人们经常会因为举报——比如嫉妒的邻居举报或者腐败的警察敲诈,被拖走并折磨至死。那么一个如果廉洁的机器所说的话,又会引发怎样的事情呢?
专栏作者介绍
Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。
LinkedIn:
https://www.linkedin.com/in/christopherdossman/
英文报道链接:
https://medium.com/@cdossman/ai-scholar-5-8af068233a28