变化检测在土地利用监测、灾害评估等领域具有重要作用。针对多模态(如光学与SAR)影像由于成像机制差异导致的特征对齐粗糙、融合静态等挑战,本文提出 MAFFNet 框架。通过多粒度对齐与频率自适应融合,有效解决了跨模态语义歧义,在检测精度、噪声鲁棒性及计算效率方面均达到领先水平。
光学与 SAR 影像优势互补,但成像机制的物理差异为高精度变化检测带来了严峻挑战。
SAR 影像具备全天时、全天候穿透云雾能力,光学影像则具有高光谱分辨率和丰富的纹理特征,两者结合潜力巨大。
光学为近天底观测,SAR 为侧视成像。SAR 存在相干斑噪声且特征由雷达参数决定,导致严重的跨模态异质性。
现有方法强制映射至同质空间会模糊判别信息,缺乏协同设计,且融合方式多为静态,无法动态评估模态价值。
采用非权重共享的双分支伪孪生架构,构建从噪声鲁棒的低级特征到语义一致的高级特征的协作通路。
光学分支采用 FastSAM,SAR 分支采用 Res2Net。通过 KL 散度约束与不变区域掩码机制,利用视觉基础模型引导跨模态知识迁移,隐式对齐特征分布。
提取全局语义描述子计算相似度矩阵,通过双向对比损失在公共潜在空间最小化对应特征距离,有效消除 SAR 几何畸变导致的语义歧义。
采用小波频率分解将特征分为低频与高频子带,通过空间自适应子带校准与多频段注意力动态评估各频率贡献,实现频率自适应融合。
引入不变区域掩码 Y_c,仅对不变区域施加对齐损失,避免拉近“真实变化区域”的特征分布。
联合二元交叉熵损失 (L_bc)、KL 散度损失 (L_kl) 与双向对比损失 (L_cl) 进行模型优化,γ 为平衡系数。
在 Wuhan 和 BRIGHT 数据集上,MAFFNet 在检测精度、噪声鲁棒性及计算效率方面均超越主流方法。
| 数据集 | 方法 | Pre (%) | Rec (%) | OA (%) | F1 (%) | mIoU (%) |
|---|---|---|---|---|---|---|
| Wuhan | HeteCD (次优) | 61.43 | 55.01 | 88.87 | 58.04 | 64.42 |
| MAFFNet (本文) | 61.80 | 56.90 | 89.05 | 59.25 | 65.10 | |
| BRIGHT | Sigma (次优) | 66.59 | 54.68 | 98.25 | 60.05 | 70.57 |
| MAFFNet (本文) | 62.09 | 75.77 | 98.15 | 68.25 | 74.96 |
MAFFNet 成功打破了多模态影像的异质性壁垒,为灾害响应与环境监测提供了高效的解决方案。
实现了特征级隐式分布对齐,通过联合对比学习消除了跨模态语义歧义,并利用频率自适应机制充分挖掘了光学纹理与 SAR 散射的互补信息。
在保持极高检测精度的同时,计算量 (仅 10.99 G FLOPs) 显著低于主流方法,推理速度快,且对 SAR 相干斑噪声展现出极强的鲁棒性。
计划构建涵盖红外、激光雷达等多模态的基准数据集,探索整合辅助地理空间数据(如 OSM)强化语义约束,推动技术在实时灾害评估中的工程化落地。