无人机低空遥感是洪涝灾害现场信息获取的核心手段,但传统方法依赖地面处理,在通信受限时难以保证时效性。本文提出 FloodSAM-Duo 框架,旨在机载端实现单景影像的对象级受淹建筑直接判定与结构化表达。通过提取双尺度弱语义响应生成提示点,引导 FastSAM 实例分割模型,大幅降低了计算冗余,实现了毫秒级机载推理与极低误检率。
在通信带宽受限、地面设施受损的灾害现场,传统的“先回传后处理”模式已无法满足应急救援的时效性需求。
传统方法依赖将高分辨率影像回传地面拼接处理。影像拼接涉及复杂的几何重建,对机载算力与能耗造成巨大负担。
洪涝场景中普遍存在浑浊水体、强反射、阴影遮挡及纹理破损,导致轻量化分割模型易出现边界破碎、小尺度建筑漏检。
现有实时检测多采用包围框(Bounding Box),缺乏对象级的几何形态描述,不利于跨帧结果的去重与聚合传输。
利用轻量化网络提取双尺度弱语义响应生成提示点,引导实例分割模型恢复完整的建筑掩膜,并输出结构化 JSON 数据。
利用 PSPNet 编码器提取大尺度(宏观受淹一致性)与小尺度(局部结构)语义特征。生成建筑与水体弱语义响应图,通过自适应规则推断候选受淹区域。
在建筑响应图上提取局部极值点作为语义中心,施加空间均匀性约束抑制冗余。将提示点输入 FastSAM,聚焦目标主体,避免边界断裂和掩膜漂移。
系统直接输出 JSON 格式的结构化信息(坐标、面积、置信度),对于相邻帧检测到的建筑,采用空间距离融合去重,极大地降低了通信负载。
F^{(L)} 和 F^{(S)} 分别为大、小尺度特征。S_b 和 S_w 为建筑与水体的弱语义概率场。
提取局部极值点作为提示点,并引入最小点间距 d_{min} 过滤冗余,确保提示点的有效性。
在 NVIDIA Jetson Xavier NX 平台上进行的实验表明,FloodSAM-Duo 在保持极低推理延迟的同时,大幅提升了检测精度与鲁棒性。
| 方法 | 参数量 (M) | 模型大小 (MB) | 显存占用 (GB) | 单景推理时间 (ms) |
|---|---|---|---|---|
| ENet (语义分割) | 0.36 | 1.6 | 1.2 | 18~25 |
| YOLOv8n-seg (实例分割) | 3.2 | 12 | 1.8 | 25~40 |
| RT-DETR Tiny (目标检测) | 4.7 | 19 | 2.3 | 40~60 |
| FloodSAM-Duo (本文) | 2.9 | 10 | 1.6 | 15~20 |
| 方法 | 非洪涝城区 FP 比例 (%) | 无建筑水体 FP 比例 (%) | 平均单幅影像 FP 数 |
|---|---|---|---|
| ENet | 21.0 | 28.5 | 2.48 |
| YOLOv8n-seg | 13.5 | 17.0 | 1.52 |
| FloodSAM-Duo | 3.0 | 2.0 | 0.25 |
FloodSAM-Duo 成功解耦了语义筛查与精细分割,为恶劣通信条件下的灾情快速汇聚提供了可靠方案。
通过“弱语义筛查 + 局部精分割”的解耦设计,大幅降低了计算冗余,实现了毫秒级机载推理。
双尺度特征融合有效应对了洪涝场景中的复杂光影和纹理破损,平均每幅影像误检数仅为 0.25。
直接输出结构化灾情 JSON 文件,极大地压缩了传输数据量,支持跨帧去重与聚合。
{
"timestamp": "2026-05-20T10:30:00Z",
"uav_id": "UAV-08",
"flooded_buildings": [
{
"id": 101,
"coordinates": [113.372, 31.717],
"area_sq_m": 120,
"confidence": 0.92
}
],
"summary": {
"total_count": 2,
"region_center": [113.3735, 31.718]
}
}