HEAT-Net：基于混合增强注意力网络的高分辨率遥感影像建筑物提取方法

王佳琪 · 胡荣明 · 竞霞 · 等地球信息科学学报 · 2026 · Vol.28 No.5 · pp.1203-1217 DOI: 10.12082/dqxxkx.2026.260033 西安科技大学测绘科学与技术学院

高分辨率遥感影像建筑物提取是现代智慧城市建设中的关键技术，但面临尺度多样性、背景干扰及边界模糊等挑战。现有 CNN 和 Transformer 模型在跨尺度特征交互与边界细节恢复上仍有局限。本文提出 HEAT-Net (Hybrid Enhanced Attention Transformer Network)，通过引入特征增强模块 (FEM) 和多认知视觉适配器 (Mona)，融合卷积的局部优势与 Transformer 的全局建模能力，旨在同时提升区域一致性与边界描绘精度。

深度学习建筑物提取高分辨率遥感影像多尺度特征融合注意力机制边界优化 Transformer

向下滚动阅读

01 · 研究背景

建筑物提取的核心挑战与技术局限

随着遥感影像分辨率的提升，地物信息更加丰富，但也引入了复杂的背景干扰，增加了像素级语义分割的难度。

核心挑战

多尺度与复杂背景

同一影像中建筑物尺寸与形态差异巨大；阴影、道路、裸地等复杂背景与建筑物特征相似；边界对比度弱导致提取结果破碎、粘连。

CNN 的局限

全局上下文缺失

CNN 擅长局部纹理建模，具有平移不变性，但在捕获长距离依赖和全局上下文信息方面存在局限，容易导致大尺度建筑分割不完整。

Transformer 的局限

局部细节刻画不足

Transformer 具备强大的全局建模能力，但在缺乏大规模预训练时，对局部细节（如边缘）的刻画能力不足，且计算开销大。

02 · 网络架构设计

HEAT-Net：混合增强注意力网络

基于 ConvLSR-Net 框架，HEAT-Net 采用编码器-解码器对称架构，并引入了 FEM 和 Mona 模块以强化特征与自适应融合。

M1

骨干网络与长短距离变压器

采用 ConvNeXt 作为编码器提取层次化特征，并在每一级融合长短距离变压器 (LSRFormer)，结合长距离窗口注意力与短距离局部注意力。

ConvNeXtLSRFormer

M2

特征增强模块 (FEM)

位于编码器与解码器之间，作用于多尺度特征图。通过标准卷积与空洞卷积的并行分支，扩大感受野并捕获方向性局部细节，解决小尺度漏检和边缘模糊。

空洞卷积多分支并行

M3

多认知视觉适配器 (Mona)

引入带可学习缩放因子的层归一化，并采用多尺度深度可分卷积 (3×3, 5×5, 7×7) 模拟人类视觉的多尺度感知，实现局部-全局上下文的自适应融合。

动态调节多尺度感知

FEM 特征融合公式

Y = Cat(W₁, W₂, W₃) ⊕ f_conv^(1×1)(F)

W₁ 为标准卷积输出，W₂ 和 W₃ 为包含空洞卷积的分支输出，通过拼接与残差连接强化判别性线索。

Mona 动态调节与融合

x_norm = s₁ · ||x₀||_LN + s₂ · x₀

x = x₀ + U_l σ(f_pw(f_dw(D_l(x_norm))))

s₁, s₂ 为可学习缩放因子，D_l 和 U_l 为降维/上投影层，σ 为 GeLU 激活函数，提升对复杂背景的鲁棒性。

03 · 实验设计

数据集与评价指标

使用公开的 WHU 数据集与自建的 Xianyang 数据集进行验证，并引入 BIoU 重点评估边界质量。

WHU 数据集

规范的航空影像

分辨率 0.3m，影像尺寸 512×512。训练/验证/测试集分别为 4737 / 1036 / 2416 张，标注规范，应用广泛。

Xianyang 数据集

复杂背景与小尺度

高分二号 0.8m 影像。建筑像素仅占 10.14%，高密度样本占比达 25.04%，具有复杂背景、小尺度建筑密集的特点。

核心评价指标

区域与边界双重考量

除了常规的 mIoU、F1-score 外，特别引入了 BIoU (Boundary IoU)，衡量预测与真值在边界区域（容忍带宽 r=2 像素）的重叠程度。

04 · 结果分析

定量评价与效率分析

HEAT-Net 在两个数据集上均优于主流模型，特别是在边界指标 BIoU 上取得了显著的提升，同时保持了良好的计算效率。

0.9512

WHU mIoU

区域一致性最优

0.6322

WHU BIoU

较基线提升 8.52%

0.7950

Xianyang BIoU

较基线提升 7.50%

35.50

FPS (img/s)

精度与效率的平衡

Xianyang 数据集定量对比结果

模型	mIoU	BIoU	F1-score
ConvLSR-Net (基线)	0.8841	0.7200	0.8851
TransUNet	0.8783	0.6692	0.8801
HEAT-Net (本文)	0.9131	0.7950	0.9160

"可视化结果表明，HEAT-Net 明显减少了小尺度建筑的漏提现象，有效缓解了密集区域相邻建筑之间的粘连，并在阴影和纹理相似的复杂背景中显著降低了误提率。"

05 · 结论与展望

主要结论与未来工作

HEAT-Net 成功解决了高分辨率影像中建筑物尺度不一和边界模糊的问题，展现了强大的边界刻画能力和场景适应性。

架构有效性

通过 FEM 强化多尺度特征，利用 Mona 提升边界感知，有效融合了 CNN 与 Transformer 的优势。

突出的边界刻画能力

在 WHU 和自建 Xianyang 数据集上均取得领先，尤其在 BIoU 指标上表现突出，实现了最优的边界对齐。

强鲁棒性的场景适应

在小目标密集、背景干扰强的复杂城市环境中表现出更强的鲁棒性，有效降低了误检和漏检。

未来工作展望

模型优化方向

进一步开展轻量化研究，优化网络结构，降低计算成本，提升推理速度。
引入边界监督或拓扑一致性约束，进一步优化提取结果的几何质量。

应用拓展方向

在更大规模、更多样化的数据集上开展跨域验证，提升模型的泛化能力。
探索其在智慧城市动态监测、灾害评估等实际工程场景中的落地应用。