跳转到正文
403F's Cafe
返回

SpectralGPT论文实验与相关思考

SpectralGPT论文实验与相关思考 封面图

SpectralGPT网络结构

整体还是Encoder-Decoder架构

  1. Encoder为单纯的Vision Transformer,为了降低运算量添加了基于MAE的预训练阶段
  2. Decoder在变化检测和语义分割两个下游任务中,都是先过卷积层进行特征融合,再输入到金字塔结构的卷积中进行下游任务

主要创新点在于MAE的预训练阶段,针对遥感多光谱图像的特点,将原本属于2D的MAE转变为了带通道这一维度的三维MAE, 但其在实现过程中却是将原本的通道维度转化为一个时间维度,再unsqueeze出一个为1的通道维度来,代码实现差强人意。

下游任务

语义分割

在语义分割方面,在组内现有的三个数据集上,有两个航拍数据集达到了SOTA水平,然而对于遥感数据集却很差,我认为主要有以下几个原因

变化检测

在变化检测方面,尝试了WHU数据集,效果很差,目前猜测有以下几个原因

可能的解决方案与后续思路

  1. 目前我认为单纯的ViT由于patch势必会破坏相互之间的联系,因此需要在embed阶段做更改使其能够意识到周边信息,这里我认为Segformer中使用的 Overlapped Patch Embed是一个比较好的思路,保证了patch间的信息冗余。
  2. 多尺度问题,金字塔模型对于多种任务来说算是比较好的选择,在CNN backbone的模型上也能证明这一点, 因此多层Transformer或者其他类似注意力机制来实现多尺度可能可以有效解决。
  3. 对于目标中的多模态,decoder肯定是需要切换的,主要问题在于如何让encoder能够在多个完全不同的数据集上面进行pretrain同时还能都提取出特征, 这可能需要在embed过程中升维足够高,保证模型能分别学习。

分享文章:

上一篇
机器学习踩过的坑
下一篇
实习公司秒杀系统与支付链路总结