基于双尺度弱语义的
无人机机载受淹建筑实时检测方法

王文涛 · 眭海刚 · 王薇 · 等 地球信息科学学报 · 2026 · Vol.28 No.5 · pp.1247-1261

无人机低空遥感是洪涝灾害现场信息获取的核心手段,但传统方法依赖地面处理,在通信受限时难以保证时效性。本文提出 FloodSAM-Duo 框架,旨在机载端实现单景影像的对象级受淹建筑直接判定与结构化表达。通过提取双尺度弱语义响应生成提示点,引导 FastSAM 实例分割模型,大幅降低了计算冗余,实现了毫秒级机载推理与极低误检率。

无人机 洪涝监测 受淹建筑 实时检测 双尺度弱语义 FastSAM
向下滚动阅读

01 · 研究背景

机载端实时检测的挑战

在通信带宽受限、地面设施受损的灾害现场,传统的“先回传后处理”模式已无法满足应急救援的时效性需求。

处理模式滞后

通信与算力瓶颈

传统方法依赖将高分辨率影像回传地面拼接处理。影像拼接涉及复杂的几何重建,对机载算力与能耗造成巨大负担。

环境干扰严重

轻量化模型的困境

洪涝场景中普遍存在浑浊水体、强反射、阴影遮挡及纹理破损,导致轻量化分割模型易出现边界破碎、小尺度建筑漏检。

信息表达单一

对象级结构化缺失

现有实时检测多采用包围框(Bounding Box),缺乏对象级的几何形态描述,不利于跨帧结果的去重与聚合传输。


02 · 技术框架

FloodSAM-Duo 核心机制

利用轻量化网络提取双尺度弱语义响应生成提示点,引导实例分割模型恢复完整的建筑掩膜,并输出结构化 JSON 数据。

M1
双尺度弱语义生成与候选推断

利用 PSPNet 编码器提取大尺度(宏观受淹一致性)与小尺度(局部结构)语义特征。生成建筑与水体弱语义响应图,通过自适应规则推断候选受淹区域。

PSPNet双尺度池化
M2
提示点生成与 FastSAM 精分割

在建筑响应图上提取局部极值点作为语义中心,施加空间均匀性约束抑制冗余。将提示点输入 FastSAM,聚焦目标主体,避免边界断裂和掩膜漂移。

局部极值FastSAM
M3
结构化灾情信息输出与融合

系统直接输出 JSON 格式的结构化信息(坐标、面积、置信度),对于相邻帧检测到的建筑,采用空间距离融合去重,极大地降低了通信负载。

JSON输出跨帧融合

特征融合与响应建模

F^{(D)} = φ(Concat(F^{(L)}, F^{(S)}))

S_b = σ(W_b · F^{(D)})
S_w = σ(W_w · F^{(D)})

F^{(L)} 和 F^{(S)} 分别为大、小尺度特征。S_b 和 S_w 为建筑与水体的弱语义概率场。

提示点提取规则

P_0 = { p_i | S_b(p_i) > S_b(q), ∀q ∈ N(p_i) }

约束: ||p_i - p_j||_2 ≥ d_{min}

提取局部极值点作为提示点,并引入最小点间距 d_{min} 过滤冗余,确保提示点的有效性。


03 · 性能评估

机载推理性能与检测精度

在 NVIDIA Jetson Xavier NX 平台上进行的实验表明,FloodSAM-Duo 在保持极低推理延迟的同时,大幅提升了检测精度与鲁棒性。

15~20
单景推理时间 (ms)
满足准实时需求
0.84
F1_Flooded
较 YOLOv8n-seg 提升 18%
0.85
BF1 边界质量
轮廓完整性卓越
0.18
漏检率 (Miss Rate)
显著低于基线模型
机载推理性能对比 (Jetson Xavier NX)
方法 参数量 (M) 模型大小 (MB) 显存占用 (GB) 单景推理时间 (ms)
ENet (语义分割) 0.36 1.6 1.2 18~25
YOLOv8n-seg (实例分割) 3.2 12 1.8 25~40
RT-DETR Tiny (目标检测) 4.7 19 2.3 40~60
FloodSAM-Duo (本文) 2.9 10 1.6 15~20
负样本鲁棒性测试 (误检统计)
方法 非洪涝城区 FP 比例 (%) 无建筑水体 FP 比例 (%) 平均单幅影像 FP 数
ENet 21.0 28.5 2.48
YOLOv8n-seg 13.5 17.0 1.52
FloodSAM-Duo 3.0 2.0 0.25

04 · 结论与展望

核心贡献与未来方向

FloodSAM-Duo 成功解耦了语义筛查与精细分割,为恶劣通信条件下的灾情快速汇聚提供了可靠方案。

实时性

通过“弱语义筛查 + 局部精分割”的解耦设计,大幅降低了计算冗余,实现了毫秒级机载推理。

可靠性

双尺度特征融合有效应对了洪涝场景中的复杂光影和纹理破损,平均每幅影像误检数仅为 0.25。

实用性

直接输出结构化灾情 JSON 文件,极大地压缩了传输数据量,支持跨帧去重与聚合。

结构化输出示例 (JSON)
{
"timestamp": "2026-05-20T10:30:00Z",
"uav_id": "UAV-08",
"flooded_buildings": [
  {
    "id": 101,
    "coordinates": [113.372, 31.717],
    "area_sq_m": 120,
    "confidence": 0.92
  }
],
"summary": {
  "total_count": 2,
  "region_center": [113.3735, 31.718]
}
}
当前局限
  • 分辨率敏感性:当前参数配置主要针对 0.2~0.5 m 分辨率。对于厘米级影像,需调整池化窗口以适配特征感受野。
  • 能耗控制:机载智能处理仍会带来额外功耗(约 10~15 W)。
未来展望
  • 探索与新一代边缘计算平台的深度融合,进一步优化能效比。
  • 引入时序影像驱动,实现对受淹过程的动态演化监测。