基于在线知识蒸馏与伪特征模拟的
跨模态融合遥感图像建筑提取方法

Online Knowledge Distillation & Pseudo-Feature Simulation for Cross-Modal Fusion

研究背景与核心挑战

应用价值

光学与SAR影像的融合能够有效提升建筑提取的准确性和鲁棒性。光学影像提供丰富的光谱和纹理信息,而SAR影像具备全天时、全天候工作能力,对建筑物的几何结构与介电特性敏感,两者互补可显著提升提取性能。

核心瓶颈

  • 模态缺失问题:测试阶段某一模态数据缺失导致性能急剧下降
  • 实用化障碍:受卫星重访周期、天气条件限制,难以同时获取配准数据
  • 现有方法局限:数据补全引入误差,特征学习牺牲峰值性能

在线知识蒸馏框架

Online Knowledge Distillation Framework

本文提出的框架实现"训练时多模态融合,测试时单模态推理"的应用目标,通过双模态教师网络指导单模态学生网络,使学生网络在测试阶段仅凭单一模态输入即可逼近多模态融合模型的性能。

教师网络

Teacher Network

  • 双模态输入(光学 + SAR)
  • AGAFM自适应门控注意力融合
  • 多层级特征互补
  • 生成高质量知识源

学生网络

Student Network

  • 单模态输入(光学或SAR)
  • LDAF/ESAR伪特征生成
  • 模拟缺失模态信息
  • 学习教师融合能力

核心创新模块

AGAFM - 自适应门控注意力融合模块

核心机制

  • • 跨模态交互与双重注意力机制
  • • 通道注意力 + 空间注意力并行
  • • 门控融合机制动态权重分配
  • • 层次化融合策略(4个层级)

技术优势

  • • 有效抑制冗余信息
  • • 突出显著建筑特征
  • • 实现光学与SAR特征互补
  • • 保障梯度流动稳定性

伪特征生成模块

LDAF - 轻量级双注意力融合

  • • 用于SAR模态缺失场景
  • • 从光学特征模拟SAR信息
  • • 深度可分离卷积降低参数
  • • 通道+空间双重注意力

ESAR - 增强型SAR注意力

  • • 用于光学模态缺失场景
  • • 从SAR特征模拟光学信息
  • • 针对SAR散射特性优化
  • • 增强几何结构感知

几何增强模块

DCM - 可变形卷积模块

  • • 自适应调整感受野
  • • 适配不规则建筑形状
  • • 增强几何形变建模能力

MAC-BEM - 边界感知增强

  • • 梯度感知约束
  • • 优化轮廓细节
  • • 提升边界精度

多层次知识蒸馏策略

构建特征层与输出层的多层次知识蒸馏损失,系统地迫使学生网络模仿教师的融合特征与输出分布,实现知识的有效迁移。

特征层蒸馏

对齐中间特征表示,学习教师的特征提取能力

输出层蒸馏

匹配最终预测分布,继承教师的决策能力

在线蒸馏

端到端训练,避免多阶段训练的高成本

实验结果与性能评估

Experimental Results & Performance Evaluation

SAR模态缺失场景

山东省子数据集

IoU 83.68%

相比次优算法提升 3.06%

韩国浦项市子数据集

IoU 77.24%

相比次优算法提升 2.66%

光学模态缺失场景

山东省子数据集

IoU 77.78%

相比次优算法提升 4.01%

韩国浦项市子数据集

IoU 77.20%

相比次优算法提升 1.31%

核心优势

高精度

显著优于单模态对比模型

轻量化

单模态输入降低部署成本

强鲁棒

适应模态缺失场景

易部署

解决实用化瓶颈