HEAT-Net:基于混合增强注意力网络的高分辨率遥感影像建筑物提取方法

王佳琪 · 胡荣明 · 竞霞 · 等 地球信息科学学报 · 2026 · Vol.28 No.5 · pp.1203-1217 DOI: 10.12082/dqxxkx.2026.260033 西安科技大学测绘科学与技术学院

高分辨率遥感影像建筑物提取是现代智慧城市建设中的关键技术,但面临尺度多样性、背景干扰及边界模糊等挑战。现有 CNN 和 Transformer 模型在跨尺度特征交互与边界细节恢复上仍有局限。本文提出 HEAT-Net (Hybrid Enhanced Attention Transformer Network),通过引入特征增强模块 (FEM) 和多认知视觉适配器 (Mona),融合卷积的局部优势与 Transformer 的全局建模能力,旨在同时提升区域一致性与边界描绘精度。

深度学习 建筑物提取 高分辨率遥感影像 多尺度特征融合 注意力机制 边界优化 Transformer
向下滚动阅读

01 · 研究背景

建筑物提取的核心挑战与技术局限

随着遥感影像分辨率的提升,地物信息更加丰富,但也引入了复杂的背景干扰,增加了像素级语义分割的难度。

核心挑战

多尺度与复杂背景

同一影像中建筑物尺寸与形态差异巨大;阴影、道路、裸地等复杂背景与建筑物特征相似;边界对比度弱导致提取结果破碎、粘连。

CNN 的局限

全局上下文缺失

CNN 擅长局部纹理建模,具有平移不变性,但在捕获长距离依赖和全局上下文信息方面存在局限,容易导致大尺度建筑分割不完整。

Transformer 的局限

局部细节刻画不足

Transformer 具备强大的全局建模能力,但在缺乏大规模预训练时,对局部细节(如边缘)的刻画能力不足,且计算开销大。


02 · 网络架构设计

HEAT-Net:混合增强注意力网络

基于 ConvLSR-Net 框架,HEAT-Net 采用编码器-解码器对称架构,并引入了 FEM 和 Mona 模块以强化特征与自适应融合。

M1
骨干网络与长短距离变压器

采用 ConvNeXt 作为编码器提取层次化特征,并在每一级融合长短距离变压器 (LSRFormer),结合长距离窗口注意力与短距离局部注意力。

ConvNeXtLSRFormer
M2
特征增强模块 (FEM)

位于编码器与解码器之间,作用于多尺度特征图。通过标准卷积与空洞卷积的并行分支,扩大感受野并捕获方向性局部细节,解决小尺度漏检和边缘模糊。

空洞卷积多分支并行
M3
多认知视觉适配器 (Mona)

引入带可学习缩放因子的层归一化,并采用多尺度深度可分卷积 (3×3, 5×5, 7×7) 模拟人类视觉的多尺度感知,实现局部-全局上下文的自适应融合。

动态调节多尺度感知

FEM 特征融合公式

Y = Cat(W₁, W₂, W₃) ⊕ f_conv^(1×1)(F)

W₁ 为标准卷积输出,W₂ 和 W₃ 为包含空洞卷积的分支输出,通过拼接与残差连接强化判别性线索。

Mona 动态调节与融合

x_norm = s₁ · ||x₀||_LN + s₂ · x₀

x = x₀ + U_l σ(f_pw(f_dw(D_l(x_norm))))

s₁, s₂ 为可学习缩放因子,D_l 和 U_l 为降维/上投影层,σ 为 GeLU 激活函数,提升对复杂背景的鲁棒性。


03 · 实验设计

数据集与评价指标

使用公开的 WHU 数据集与自建的 Xianyang 数据集进行验证,并引入 BIoU 重点评估边界质量。

WHU 数据集

规范的航空影像

分辨率 0.3m,影像尺寸 512×512。训练/验证/测试集分别为 4737 / 1036 / 2416 张,标注规范,应用广泛。

Xianyang 数据集

复杂背景与小尺度

高分二号 0.8m 影像。建筑像素仅占 10.14%,高密度样本占比达 25.04%,具有复杂背景、小尺度建筑密集的特点。

核心评价指标

区域与边界双重考量

除了常规的 mIoU、F1-score 外,特别引入了 BIoU (Boundary IoU),衡量预测与真值在边界区域(容忍带宽 r=2 像素)的重叠程度。


04 · 结果分析

定量评价与效率分析

HEAT-Net 在两个数据集上均优于主流模型,特别是在边界指标 BIoU 上取得了显著的提升,同时保持了良好的计算效率。

0.9512
WHU mIoU
区域一致性最优
0.6322
WHU BIoU
较基线提升 8.52%
0.7950
Xianyang BIoU
较基线提升 7.50%
35.50
FPS (img/s)
精度与效率的平衡
Xianyang 数据集定量对比结果
模型 mIoU BIoU F1-score
ConvLSR-Net (基线) 0.8841 0.7200 0.8851
TransUNet 0.8783 0.6692 0.8801
HEAT-Net (本文) 0.9131 0.7950 0.9160
"可视化结果表明,HEAT-Net 明显减少了小尺度建筑的漏提现象,有效缓解了密集区域相邻建筑之间的粘连,并在阴影和纹理相似的复杂背景中显著降低了误提率。"

05 · 结论与展望

主要结论与未来工作

HEAT-Net 成功解决了高分辨率影像中建筑物尺度不一和边界模糊的问题,展现了强大的边界刻画能力和场景适应性。

架构有效性

通过 FEM 强化多尺度特征,利用 Mona 提升边界感知,有效融合了 CNN 与 Transformer 的优势。

突出的边界刻画能力

在 WHU 和自建 Xianyang 数据集上均取得领先,尤其在 BIoU 指标上表现突出,实现了最优的边界对齐。

强鲁棒性的场景适应

在小目标密集、背景干扰强的复杂城市环境中表现出更强的鲁棒性,有效降低了误检和漏检。

未来工作展望
模型优化方向
  • 进一步开展轻量化研究,优化网络结构,降低计算成本,提升推理速度。
  • 引入边界监督或拓扑一致性约束,进一步优化提取结果的几何质量。
应用拓展方向
  • 在更大规模、更多样化的数据集上开展跨域验证,提升模型的泛化能力。
  • 探索其在智慧城市动态监测、灾害评估等实际工程场景中的落地应用。