高分辨率遥感影像建筑物提取是现代智慧城市建设中的关键技术,但面临尺度多样性、背景干扰及边界模糊等挑战。现有 CNN 和 Transformer 模型在跨尺度特征交互与边界细节恢复上仍有局限。本文提出 HEAT-Net (Hybrid Enhanced Attention Transformer Network),通过引入特征增强模块 (FEM) 和多认知视觉适配器 (Mona),融合卷积的局部优势与 Transformer 的全局建模能力,旨在同时提升区域一致性与边界描绘精度。
随着遥感影像分辨率的提升,地物信息更加丰富,但也引入了复杂的背景干扰,增加了像素级语义分割的难度。
同一影像中建筑物尺寸与形态差异巨大;阴影、道路、裸地等复杂背景与建筑物特征相似;边界对比度弱导致提取结果破碎、粘连。
CNN 擅长局部纹理建模,具有平移不变性,但在捕获长距离依赖和全局上下文信息方面存在局限,容易导致大尺度建筑分割不完整。
Transformer 具备强大的全局建模能力,但在缺乏大规模预训练时,对局部细节(如边缘)的刻画能力不足,且计算开销大。
基于 ConvLSR-Net 框架,HEAT-Net 采用编码器-解码器对称架构,并引入了 FEM 和 Mona 模块以强化特征与自适应融合。
采用 ConvNeXt 作为编码器提取层次化特征,并在每一级融合长短距离变压器 (LSRFormer),结合长距离窗口注意力与短距离局部注意力。
位于编码器与解码器之间,作用于多尺度特征图。通过标准卷积与空洞卷积的并行分支,扩大感受野并捕获方向性局部细节,解决小尺度漏检和边缘模糊。
引入带可学习缩放因子的层归一化,并采用多尺度深度可分卷积 (3×3, 5×5, 7×7) 模拟人类视觉的多尺度感知,实现局部-全局上下文的自适应融合。
W₁ 为标准卷积输出,W₂ 和 W₃ 为包含空洞卷积的分支输出,通过拼接与残差连接强化判别性线索。
s₁, s₂ 为可学习缩放因子,D_l 和 U_l 为降维/上投影层,σ 为 GeLU 激活函数,提升对复杂背景的鲁棒性。
使用公开的 WHU 数据集与自建的 Xianyang 数据集进行验证,并引入 BIoU 重点评估边界质量。
分辨率 0.3m,影像尺寸 512×512。训练/验证/测试集分别为 4737 / 1036 / 2416 张,标注规范,应用广泛。
高分二号 0.8m 影像。建筑像素仅占 10.14%,高密度样本占比达 25.04%,具有复杂背景、小尺度建筑密集的特点。
除了常规的 mIoU、F1-score 外,特别引入了 BIoU (Boundary IoU),衡量预测与真值在边界区域(容忍带宽 r=2 像素)的重叠程度。
HEAT-Net 在两个数据集上均优于主流模型,特别是在边界指标 BIoU 上取得了显著的提升,同时保持了良好的计算效率。
| 模型 | mIoU | BIoU | F1-score |
|---|---|---|---|
| ConvLSR-Net (基线) | 0.8841 | 0.7200 | 0.8851 |
| TransUNet | 0.8783 | 0.6692 | 0.8801 |
| HEAT-Net (本文) | 0.9131 | 0.7950 | 0.9160 |
HEAT-Net 成功解决了高分辨率影像中建筑物尺度不一和边界模糊的问题,展现了强大的边界刻画能力和场景适应性。
通过 FEM 强化多尺度特征,利用 Mona 提升边界感知,有效融合了 CNN 与 Transformer 的优势。
在 WHU 和自建 Xianyang 数据集上均取得领先,尤其在 BIoU 指标上表现突出,实现了最优的边界对齐。
在小目标密集、背景干扰强的复杂城市环境中表现出更强的鲁棒性,有效降低了误检和漏检。