U²-former架构
U²-Net + Transformer Fusion Architecture
本文将U²-Net的嵌套U型结构与Transformer模块相融合,通过"局部校准-全局扩展-边缘融合"的协同处理流程,在仅6M参数量的轻量化前提下实现高精度建筑物提取。
1
通道注意力编码
Channel Attention Encoding
- 在编码部分引入通道注意力
- 强化局部特征捕获能力
- 增强细节表征
2
Transformer解码
Transformer Decoder
- 重构解码器为Transformer
- 多头注意力建立全局依赖
- 通道增强型MLP
3
多级特征融合
Multi-level Feature Fusion
- 整合不同解码层输出
- 提升边界完整性
- 语义与细节有效整合
核心技术创新
通道注意力机制
核心思想
- • 在编码器RSU模块中嵌入
- • 自适应调整通道权重
- • 强化关键特征通道
- • 抑制冗余信息
技术优势
- • 增强局部特征表征能力
- • 提升细节捕获精度
- • 减少参数冗余
- • 改善特征质量
Transformer解码器重构
多头注意力机制
- • 窗口线性多头自注意力
- • 建立全局空间依赖关系
- • 捕获长距离建筑物关联
- • 优化窗口划分策略
通道增强型MLP
- • 深度可分离卷积
- • 保持空间信息完整性
- • 增强特征表达能力
- • 降低计算复杂度
多级特征融合策略
融合机制
- • 整合6个解码层输出
- • 上采样至统一尺寸
- • 通道维度拼接
- • 1×1卷积融合
核心价值
- • 综合多尺度语义信息
- • 保留细粒度空间细节
- • 提升边界完整性
- • 减少断裂和模糊
CNN与Transformer优势互补
CNN的优势
- 局部特征提取:强大的图像细节和纹理捕获能力
- 参数效率:通过权重共享降低参数量
- 局限:忽略像素间长距离相关性
Transformer的优势
- 全局上下文:自注意力捕获长距离依赖关系
- 空间关系:理解建筑物之间的空间布局
- 局限:易丢失小建筑物细节
U²-former的融合策略
通过编码器使用CNN+通道注意力保留局部细节,解码器使用Transformer建立全局依赖,实现了局部特征提取能力与全局上下文建模优势的有机结合,在较低参数量下达到高精度建筑物提取。