0%

天池农业AI挑战赛-总结

赛题社会价值

通过计算机自动识别大面积卫星图中的物体,有助于预估农产品产量,城市面积等工作。


赛题所属类型

图像分割与分类


赛题特点

  1. 类间差异小;
  2. 存在标注噪声;
  3. 物体尺度差异大;
  4. 有效物体占比低;
  5. 图片尺寸达到30亿左右的像素,无法直接训练。

赛题工作

模型选择

本次分割的图像中,全局信息很重要,某一个类别的确定会受到它周边像素与类别的影响。
本次比赛最佳模型框架deeplab v3+。

数据处理

  1. 为了应对图片过大的现象,本次比赛采取了滑动裁剪的方法,每次选取图片大小1024x1024,滑动步长设置为512,剔除无效区域占比过高的样本。由于滑动采样操作会对边缘的预测产生影响,所以,预测结果只保留中间区域(512x512)。

  2. 一些常规的数据增强方法。

训练处理

  1. 本次分类使用的是多分类交叉熵损失函数,并为不同类别添加不同的权重。

  2. 标签平滑。采取软标签训练,区别于0和1的这样的硬标签,可以为难易程度不同的样本给予不同程度的标签值。

  3. 使用半监督的方式,为没有标签的图片生成软标签,增加样本。

  4. 因为数据集比较小,即使使用了各种数据增强技术,还是会有过拟合的风险,可以选取多个snapshot使用参数均值的方法对模型参数进行融合可以提高模型的泛化能力。但是传统的方法是对一个模型进行多次训练来取得多个snapshot,这会需要很多的计算时间。相比之下,根据不同评价标准选择融合的snapshot,也就是选择最小验证loss,最大mIoU,和训练最后(通常是训练loss最小)的三个模型参数进行融合。为了增加三个模型的差异性,可以采用Cyclic Cosine Annealing的方法。反复进入多个局部最小值。

预测结果处理

  1. 由于预测生成的图片会存在一些毛刺,小连通域等现象。所以,采取了一些图像的膨胀与腐蚀的处理。形态学开运算闭运算
-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道