U²-former
轻量级全局注意力网络
建筑物提取方法

Lightweight Global Attention Network for High-Resolution Building Extraction

研究背景与核心挑战

应用价值

建筑物信息对于城市规划、环境监测、灾害应急等领域具有重要应用价值。随着高分辨率遥感影像的普及,如何高效、精确地实现建筑物自动提取已成为遥感领域的研究热点。

三大关键矛盾

  • 轻量化 vs 特征完整性:小参数难以捕获全局依赖
  • 局部细节 vs 全局上下文:CNN与Transformer各有局限
  • 边界完整性 vs 抗干扰:强化边缘易引入噪声

U²-former架构

U²-Net + Transformer Fusion Architecture

本文将U²-Net的嵌套U型结构与Transformer模块相融合,通过"局部校准-全局扩展-边缘融合"的协同处理流程,在仅6M参数量的轻量化前提下实现高精度建筑物提取。

1

通道注意力编码

Channel Attention Encoding

  • 在编码部分引入通道注意力
  • 强化局部特征捕获能力
  • 增强细节表征
2

Transformer解码

Transformer Decoder

  • 重构解码器为Transformer
  • 多头注意力建立全局依赖
  • 通道增强型MLP
3

多级特征融合

Multi-level Feature Fusion

  • 整合不同解码层输出
  • 提升边界完整性
  • 语义与细节有效整合

核心技术创新

通道注意力机制

核心思想

  • • 在编码器RSU模块中嵌入
  • • 自适应调整通道权重
  • • 强化关键特征通道
  • • 抑制冗余信息

技术优势

  • • 增强局部特征表征能力
  • • 提升细节捕获精度
  • • 减少参数冗余
  • • 改善特征质量

Transformer解码器重构

多头注意力机制

  • • 窗口线性多头自注意力
  • • 建立全局空间依赖关系
  • • 捕获长距离建筑物关联
  • • 优化窗口划分策略

通道增强型MLP

  • • 深度可分离卷积
  • • 保持空间信息完整性
  • • 增强特征表达能力
  • • 降低计算复杂度

多级特征融合策略

融合机制

  • • 整合6个解码层输出
  • • 上采样至统一尺寸
  • • 通道维度拼接
  • • 1×1卷积融合

核心价值

  • • 综合多尺度语义信息
  • • 保留细粒度空间细节
  • • 提升边界完整性
  • • 减少断裂和模糊

CNN与Transformer优势互补

CNN的优势

  • 局部特征提取:强大的图像细节和纹理捕获能力
  • 参数效率:通过权重共享降低参数量
  • 局限:忽略像素间长距离相关性

Transformer的优势

  • 全局上下文:自注意力捕获长距离依赖关系
  • 空间关系:理解建筑物之间的空间布局
  • 局限:易丢失小建筑物细节

U²-former的融合策略

通过编码器使用CNN+通道注意力保留局部细节,解码器使用Transformer建立全局依赖,实现了局部特征提取能力与全局上下文建模优势的有机结合,在较低参数量下达到高精度建筑物提取。

实验结果与性能评估

Experimental Results & Performance Evaluation

WHU航空影像

IoU 91.69%

相比U²-Net提升 1.33%

Massachusetts

IoU 74.96%

相比U²-Net提升 3.54%

Inria航空影像

IoU 80.13%

相比U²-Net提升 2.24%

模型参数量

仅需参数量

6M

轻量化设计,适合边缘计算部署

核心优势

高精度

优于当前主流算法

轻量化

仅6M参数量

边界完整

保持轮廓完整性

强鲁棒

抗阴影遮挡干扰