小述:Mask R-CNN算法之摆脱人力估算咖啡收获产量!
点击上方关注,All in AI中国
在我们的生活中有很多的问题思考都需要有复杂性和前瞻性的思维。因此,深度学习可以让我们把计算机视觉中的大多数问题得到解决,本文将会介绍一种可以解决具体问题的Mask R-CNN算法。
全球各地的咖啡果园都非常依赖人工计算一个树枝上成熟咖啡和非成熟咖啡果的数量,以便估算收获时间。基于这个简单的指标,需要大量的专业知识来对收获时间做出更快、更有根据的估计。一旦发生错误,就可能会导致产生收获和钱的减少。
你能数出多少果实?现在,我们要等多久才能收获?
训练
如果您不熟悉机器学习,那么对于这类问题,您只需要知道一件事。没有它,我们必须手工编码那些咖啡果的每个特征才能被程序识别。不管你怎么说还是得写很多的代码。
因此,我们采取以下方法:
- 拍摄我们感兴趣的物体的100张照片
- 手标签/注释30张图片
- 将图像输入我们的网络
- 评估模型
- 重复,直到我们能够以> 90%的准确度检测我们的物体。
- 额外奖励:让我们的模型标记为我们的新图像
Mask R-CNN
本文的目的是针对该算法的应用,简单来说,该算法返回对象的位置和构成对象的像素。非常适合能够:
- 确定咖啡果的位置/数量(边界框)
- 确定每个咖啡果的颜色(图像分割)
VGG Image Annotator(VIA)可能是作者发现的多边形对象的最佳注释工具。他们更新了一些功能来保存项目,加载以前的注释等。为这种情况注释对象需要很长时间。在这个阶段还很容易陷入不确定性:我真的应该注释所有这些图像吗?它通常需要这么长时间吗?如果它不起作用怎么办?
这确实是这个过程中最难的部分。
要花大约4个小时对这些图像进行注释,这是必须的。最简单的测试方法是通过迁移学习和其他人对算法的实现。如果需要,可以对模型进行微调和调整。
结果
在与Amazon Web Services和包依赖性问题无休止地斗争之后,最终结果如下所示:
在野外训练的模型
这是艺术
一点也不差,特别是考虑到它使工作所需的图片量很少。接下来的步骤是通过在类似于其应用程序的设置中拍摄更多图片来优化模型,并最终将其部署以供一般使用。