在Tensorflow中用DeepLab进行语义图像分割

语义图像分割,为每个像素分配一个语义标签,如“道路”,“天空”,“人”,“狗”图像可实现众多新应用,例如Pixel 2和Pixel 2 XL智能手机纵向模式下的合成浅景深效果以及移动实时视频分割。分配这些语义标签需要精确定位对象的轮廓,因此比其他视觉实体识别任务(如图像级分类或边界框级检测)要求的定位精度要求更严格。

在Tensorflow中用DeepLab进行语义图像分割

今天,我们很高兴地宣布我们最新的和性能最好的语义图像分割模型的开源版本,DeepLab-v3 +[1],在Tensorflow中实现。该版本包含基于强大的卷积神经网络(CNN)骨干架构[2,3] 构建的DeepLab-v3 +模型,用于获得最准确的结果,用于服务器端部署。作为本次发布的一部分,我们还分享了我们的Tensorflow模型培训和评估代码,以及已经预先培训过的Pascal VOC 2012和Cityscapes基准语义分段任务的模型。

自从三年前我们的DeepLab模型[4]第一次改版以来,改进的CNN特征提取器,更好的对象比例建模,对上下文信息的仔细同化,改进的训练过程以及越来越强大的硬件和软件导致了DeepLab-v2的改进[ 5]和DeepLab-v3 [6]。借助DeepLab-v3 +,我们通过添加简单而有效的解码器模块来扩展DeepLab-v3,以细化分割结果,尤其是沿着对象边界。我们进一步将深度可分离卷积应用于空间金字塔池[5,6]和解码器模块,从而形成更快更强的用于语义分割的编码器 - 解码器网络。

在Tensorflow中用DeepLab进行语义图像分割

由于方法,硬件和数据集的进步,构建在卷积神经网络(CNN)之上的现代语义图像分割系统已经达到了准确性水平,甚至在五年前也难以想象。我们希望与社区公开分享我们的系统将使学术界和工业界的其他团体能够更容易地再现并进一步改进最先进的系统,对新数据集进行模型训练并设想新技术的应用。