赛题社会价值
通过计算机自动识别大面积卫星图中的物体,有助于预估农产品产量,城市面积等工作。
赛题所属类型
图像分割与分类
赛题特点
- 类间差异小;
- 存在标注噪声;
- 物体尺度差异大;
- 有效物体占比低;
- 图片尺寸达到30亿左右的像素,无法直接训练。
赛题工作
模型选择
本次分割的图像中,全局信息很重要,某一个类别的确定会受到它周边像素与类别的影响。
本次比赛最佳模型框架deeplab v3+。
数据处理
-
为了应对图片过大的现象,本次比赛采取了滑动裁剪的方法,每次选取图片大小1024x1024,滑动步长设置为512,剔除无效区域占比过高的样本。由于滑动采样操作会对边缘的预测产生影响,所以,预测结果只保留中间区域(512x512)。
-
一些常规的数据增强方法。
训练处理
-
本次分类使用的是多分类交叉熵损失函数,并为不同类别添加不同的权重。
-
标签平滑。采取软标签训练,区别于0和1的这样的硬标签,可以为难易程度不同的样本给予不同程度的标签值。
-
使用半监督的方式,为没有标签的图片生成软标签,增加样本。
-
因为数据集比较小,即使使用了各种数据增强技术,还是会有过拟合的风险,可以选取多个snapshot使用参数均值的方法对模型参数进行融合可以提高模型的泛化能力。但是传统的方法是对一个模型进行多次训练来取得多个snapshot,这会需要很多的计算时间。相比之下,根据不同评价标准选择融合的snapshot,也就是选择最小验证loss,最大mIoU,和训练最后(通常是训练loss最小)的三个模型参数进行融合。为了增加三个模型的差异性,可以采用Cyclic Cosine Annealing的方法。反复进入多个局部最小值。
预测结果处理
- 由于预测生成的图片会存在一些毛刺,小连通域等现象。所以,采取了一些图像的膨胀与腐蚀的处理。形态学开运算闭运算