SACE-Net:结构感知的高分遥感影像
建筑物与道路协同提取方法

研究背景与动机

核心问题

  • 未充分利用两类地物间的空间结构关系
  • 忽视各自的形态结构特性
  • 导致地物边界不清晰小尺寸对象漏检

应用价值

  • 城市规划 - 空间布局优化
  • 灾害响应 - 应急救援支持
  • 自动驾驶 - 高精度地图构建
  • 智能交通 - 路网管理优化

核心方法创新

整体架构

采用编码器-解码器架构,以ResNet-50为骨干网络,包含两大核心模块

特征空间交互模块

FSIM - Feature Space Interaction Module

核心功能

捕获建筑物与道路的空间结构语义

实现机制

  • • 查询引导的跨注意力机制
  • • 双重跨注意力块(建筑物↔道路)
  • • 残差连接保留空间细节
  • • 通道拼接 + 1×1卷积融合

双分支解码模块

DBDM - Dual-Branch Decoding Module

建筑物分支 - AGB

  • 注意力引导块(Attention-Guided Block)
  • • 网格注意力抑制背景干扰
  • • 混合注意力(通道+空间)
  • • 强化建筑物边界轮廓

道路分支 - DAB

  • 方向感知块(Direction-Aware Block)
  • • 多尺度通道(不同卷积核)
  • • 多方向条带卷积(水平/垂直/对角)
  • • 增强道路线性结构提取

实验设计与数据集

Massachusetts 数据集

来源:美国波士顿地区航拍影像

分辨率:1m

样本量:3,527张(训练3,077 / 验证200 / 测试250)

尺寸:512×512像素

特点:涵盖城市、郊区、乡村多种场景

AIOI 数据集

来源:美国9个地区遥感影像

分辨率:0.15~0.30m

样本量:12,096张(训练9,552 / 测试2,544)

尺寸:512×512像素

特点:跨城市分布,场景类型丰富

评价指标体系

Precision

精度

Recall

召回率

F1 Score

F1分数

IoU

交并比

Avg IoU

平均交并比

对比基线方法

UNet

经典语义分割

DeepLabv3+

空洞卷积分割

SegFormer

Transformer分割

EfficientFormerV2

高效Transformer

VWFormer

可变窗口注意力

LOGCAN++

多类别分割

CRIN

协同提取方法

SACE-Net

本文方法 ⭐

核心实验结果

Massachusetts 数据集

Avg IoU

75.82%

相比CRIN提升 10.70%

建筑物 IoU

73.49%

道路 IoU

78.14%

AIOI 数据集

Avg IoU

64.14%

相比CRIN提升 4.90%

建筑物 IoU

71.55%

道路 IoU

56.72%

消融实验验证

基础模型(无模块)

56.86%

Massachusetts

添加FSIM+DBDM

75.82%

提升 18.96%

AIOI数据集提升

14.01%

50.13% → 64.14%

技术优势与创新点

🎯

空间结构感知

通过跨注意力机制动态学习建筑物与道路的空间依赖关系,实现互补特征融合

🔍

形态结构差异化

双分支解码针对建筑物轮廓和道路线性结构特点,实现差异化特征提取

端到端优化

采用GradNorm动态权重平衡策略,自适应调整多任务损失,提升整体性能

可视化结果分析

SACE-Net 优势表现

  • 准确还原建筑物边界形状,保持结构完整性
  • 保持道路网络连贯性和完整性
  • 有效处理不规则几何形态场景
  • 稀疏场景中抑制背景干扰

基线方法常见问题

  • U-Net:边界模糊、道路断连严重
  • SegFormer/DeepLabv3+:建筑物边界粘连
  • EfficientFormerV2:道路漏检突出
  • VWFormer:道路区域断连现象

影响因素深度分析

骨干网络对比

ResNet-50 (本文)

75.82%

参数: 76.79M | GFLOPs: 353.25

✓ 精度与效率最佳平衡

ResNet-101

76.39%

参数: 114.78M | GFLOPs: 431.26

精度略高但计算量大

SegFormer-B0

66.35%

参数: 8.05M | GFLOPs: 95.03

轻量但精度不足

卷积结构消融

单尺度方型

68.69%

单尺度多方向

72.23%

多尺度方型

70.61%

多尺度多方向 ⭐

75.82%

注意力机制对比

SE

71.67%

通道注意力

ECA

72.60%

高效通道注意力

CA+SA ⭐

75.82%

通道+空间混合

北京实验区实际应用

实验区信息

  • 覆盖面积:145.53 km²
  • 数据来源:SAS Planet RGB影像
  • 空间分辨率:0.6m
  • 坐标范围:116°14'45"E - 116°17'0"E

性能表现

Avg IoU

58.47%

优于所有对比模型

建筑物 IoU

54.33%

道路 IoU

62.60%

验证结论:SACE-Net在中国城市场景中表现出良好的鲁棒性和适用性,能够准确还原建筑物与道路空间形态,保持高结构完整性