场景图生成旨在构建描述影像中实例及其交互关系的结构化图。针对遥感影像中目标高度密集、具有显著方向性、尺度差异大以及现有两阶段方法参数庞大等挑战,本文提出首个专为旋转框目标设计的单阶段场景图生成框架 RotatedSGG。该框架融合了旋转目标检测器的几何感知能力与隐式关系建模机制,实现了轻量化、高精度且能处理大幅面遥感影像的结构化理解方案。
遥感影像中目标分布密集、尺度差异巨大,传统方法难以应对复杂的关系建模与大幅面处理。
目标(如停车场车辆、港口船只)高度密集且具方向性,旋转框比水平框更贴合,但现有单阶段方法缺乏支持。
密集场景下潜在三元组数量随目标数平方级增长,传统基于显式三元组查询的方法在关系过载时鲁棒性极差。
现有方法多为两阶段,存在误差传播问题,且参数量极为庞大(如 RPCM 模型权重高达 4.62G),难以部署。
融合 LskNet 主干网络与隐式关系建模机制,设计大幅面影像适配策略,实现高效场景图生成。
选用具备自适应大核选择机制的 LskNet 作为主干网络,通过内容感知动态调整感受野,增强对目标尺度变化的鲁棒性,结合特征金字塔生成多尺度特征图。
利用解码器注意力副产物隐式建模关系,避免固定查询数量限制。设计结构解耦特征融合模块,将中心点特征(全局位置)与边界特征(局部几何)解耦后拼接融合。
设计局部细节、中尺度语义、全局场景的层级化多尺度剪切-融合流程,基于空间位置合并子图结果并执行类别 NMS,重组全局场景图。
利用解码器中心点查询的注意力计算副产物,对所有目标对进行隐式关系建模,突破了固定查询数量的限制。
联合优化目标检测、关系类别检测与连通性预测。超参数设置:λ_{rel}=30, λ_{conn}=60。
在包含 1273 张高分辨率卫星影像的 STAR 数据集上,RotatedSGG 在精度与轻量化上均显著超越现有方法。
| 模型 | 参数量 (M) | 权重大小 (G) | mMR@2000 (%) | HMR@2000 (%) |
|---|---|---|---|---|
| PE-Net | - | - | 9.30 | 13.16 |
| RPCM | 735 | 4.62 | 12.07 | 16.96 |
| RotatedSGG (本文) | 53.08 | 0.53 | 14.47 | 19.10 |
RotatedSGG 填补了遥感领域缺乏高效单阶段旋转框场景图生成方法的空白,为高层语义理解奠定了基础。
提出首个单阶段旋转框 SGG 框架,多尺度感知增强与隐式关系建模成功解决了密集场景下关系爆炸问题,且极大地降低了计算资源需求。
多尺度剪切在极度下采样时仍可能丢失长距离小目标关系;此外,统一的网格划分策略在背景区域存在一定的计算浪费。
探索动态剪切技术以根据目标密度自适应调整推理区域;引入视觉-语言大模型 (VLM) 进行微调,利用其常识推理能力提升语义关系识别精度。