基于多粒度对齐与频率自适应融合的多模态遥感影像变化检测方法

刘彤 · 丁磊 · 郭海涛 · 等 地球信息科学学报 · 2026 · Vol.28 No.5 · pp.1499-1516

变化检测在土地利用监测、灾害评估等领域具有重要作用。针对多模态(如光学与SAR)影像由于成像机制差异导致的特征对齐粗糙、融合静态等挑战,本文提出 MAFFNet 框架。通过多粒度对齐与频率自适应融合,有效解决了跨模态语义歧义,在检测精度、噪声鲁棒性及计算效率方面均达到领先水平。

变化检测 (CD) 多模态融合 光学与 SAR MAFFNet 多粒度对齐 频率自适应
向下滚动阅读

01 · 研究背景与挑战

多模态影像的异质性壁垒

光学与 SAR 影像优势互补,但成像机制的物理差异为高精度变化检测带来了严峻挑战。

多模态优势互补

全天候与高光谱

SAR 影像具备全天时、全天候穿透云雾能力,光学影像则具有高光谱分辨率和丰富的纹理特征,两者结合潜力巨大。

成像机制差异

异质性偏差与噪声

光学为近天底观测,SAR 为侧视成像。SAR 存在相干斑噪声且特征由雷达参数决定,导致严重的跨模态异质性。

现有方法局限

对齐粗糙与静态融合

现有方法强制映射至同质空间会模糊判别信息,缺乏协同设计,且融合方式多为静态,无法动态评估模态价值。


02 · MAFFNet 核心方法

多粒度对齐与频率自适应融合

采用非权重共享的双分支伪孪生架构,构建从噪声鲁棒的低级特征到语义一致的高级特征的协作通路。

M1
多模态特征对齐模块 (MFA)

光学分支采用 FastSAM,SAR 分支采用 Res2Net。通过 KL 散度约束与不变区域掩码机制,利用视觉基础模型引导跨模态知识迁移,隐式对齐特征分布。

FastSAMRes2NetKL 散度
M2
联合对比学习的语义对齐 (CSA)

提取全局语义描述子计算相似度矩阵,通过双向对比损失在公共潜在空间最小化对应特征距离,有效消除 SAR 几何畸变导致的语义歧义。

对比学习语义一致性
M3
模态耦合注意力机制 (MCA)

采用小波频率分解将特征分为低频与高频子带,通过空间自适应子带校准与多频段注意力动态评估各频率贡献,实现频率自适应融合。

小波分解频率自适应

KL 散度约束对齐

M_{kl}(i, j) = D_{KL}(P(f_{opt}) || Q(f_{sar}))
L_{kl} = (1/N) Σ Y_c(i, j) · M_{kl}(i, j)

引入不变区域掩码 Y_c,仅对不变区域施加对齐损失,避免拉近“真实变化区域”的特征分布。

混合训练目标损失

L_{cd} = L_{bc} + L_{kl} + γ · L_{cl}

联合二元交叉熵损失 (L_bc)、KL 散度损失 (L_kl) 与双向对比损失 (L_cl) 进行模型优化,γ 为平衡系数。


03 · 实验结果与分析

复杂场景下的高精度与高效率

在 Wuhan 和 BRIGHT 数据集上,MAFFNet 在检测精度、噪声鲁棒性及计算效率方面均超越主流方法。

68.25%
BRIGHT F1 值
较次优提升 8.20%
74.96%
BRIGHT mIoU
较次优提升 4.39%
26.01 M
参数量
显著低于主流模型
31.10 ms
推理时间
速度优于 HeteCD
主流方法性能对比
数据集 方法 Pre (%) Rec (%) OA (%) F1 (%) mIoU (%)
Wuhan HeteCD (次优) 61.43 55.01 88.87 58.04 64.42
MAFFNet (本文) 61.80 56.90 89.05 59.25 65.10
BRIGHT Sigma (次优) 66.59 54.68 98.25 60.05 70.57
MAFFNet (本文) 62.09 75.77 98.15 68.25 74.96
消融实验验证
  • 引入 FastSAM 编码器后 F1 提升 3.34%。
  • 加入 MFA 和 CSA 模块分别提升 4.47% 和 5.92%,证明特征对齐与语义一致性强化的有效性。
  • 完整 MAFFNet 较基线提升 7.40%,验证了频率自适应融合对边界刻画的关键作用。
可视化表现分析
  • 细节捕捉: 边界轮廓清晰,有效避免了其他模型常见的边界模糊问题。
  • 噪声鲁棒性: 针对 SAR 散斑噪声,误检现象显著减少。
  • 复杂场景: 在 BRIGHT 灾害破坏评估中,展现了强大的大范围检测能力与结构完整性保留能力。

04 · 结论与未来展望

多模态协同感知的可靠支撑

MAFFNet 成功打破了多模态影像的异质性壁垒,为灾害响应与环境监测提供了高效的解决方案。

核心技术突破

实现了特征级隐式分布对齐,通过联合对比学习消除了跨模态语义歧义,并利用频率自适应机制充分挖掘了光学纹理与 SAR 散射的互补信息。

高效与鲁棒性

在保持极高检测精度的同时,计算量 (仅 10.99 G FLOPs) 显著低于主流方法,推理速度快,且对 SAR 相干斑噪声展现出极强的鲁棒性。

未来拓展方向

计划构建涵盖红外、激光雷达等多模态的基准数据集,探索整合辅助地理空间数据(如 OSM)强化语义约束,推动技术在实时灾害评估中的工程化落地。