顾及密集旋转场景的遥感影像
场景图生成方法

陈明岩 · 龚志辉 · 朱坤 · 等地球信息科学学报 · 2026 · Vol.28 No.5 · pp.1426-1441

场景图生成旨在构建描述影像中实例及其交互关系的结构化图。针对遥感影像中目标高度密集、具有显著方向性、尺度差异大以及现有两阶段方法参数庞大等挑战，本文提出首个专为旋转框目标设计的单阶段场景图生成框架 RotatedSGG。该框架融合了旋转目标检测器的几何感知能力与隐式关系建模机制，实现了轻量化、高精度且能处理大幅面遥感影像的结构化理解方案。

场景图生成 (SGG) 单阶段框架旋转框目标大核选择机制特征融合大幅面影像

向下滚动阅读

01 · 研究背景与挑战

遥感影像场景图生成的瓶颈

遥感影像中目标分布密集、尺度差异巨大，传统方法难以应对复杂的关系建模与大幅面处理。

密集旋转目标

方向性与密集性

目标（如停车场车辆、港口船只）高度密集且具方向性，旋转框比水平框更贴合，但现有单阶段方法缺乏支持。

关系数量爆炸

三元组过载失效

密集场景下潜在三元组数量随目标数平方级增长，传统基于显式三元组查询的方法在关系过载时鲁棒性极差。

两阶段范式缺陷

参数庞大与误差传播

现有方法多为两阶段，存在误差传播问题，且参数量极为庞大（如 RPCM 模型权重高达 4.62G），难以部署。

02 · 核心方法与框架

RotatedSGG 单阶段框架

融合 LskNet 主干网络与隐式关系建模机制，设计大幅面影像适配策略，实现高效场景图生成。

M1

目标与关系特征提取

选用具备自适应大核选择机制的 LskNet 作为主干网络，通过内容感知动态调整感受野，增强对目标尺度变化的鲁棒性，结合特征金字塔生成多尺度特征图。

LskNet大核选择多尺度特征

M2

隐式关系建模与结构解耦

利用解码器注意力副产物隐式建模关系，避免固定查询数量限制。设计结构解耦特征融合模块，将中心点特征（全局位置）与边界特征（局部几何）解耦后拼接融合。

隐式关系建模结构解耦

M3

大幅面影像适配策略

设计局部细节、中尺度语义、全局场景的层级化多尺度剪切-融合流程，基于空间位置合并子图结果并执行类别 NMS，重组全局场景图。

多尺度剪切无缝融合

关系表征矩阵

R_a^l = [q^l W_S^l ; k^l W_O^l]

利用解码器中心点查询的注意力计算副产物，对所有目标对进行隐式关系建模，突破了固定查询数量的限制。

联合损失函数

L_{total} = L_{det} + λ_{rel} L_{rel} + λ_{conn} L_{conn}

联合优化目标检测、关系类别检测与连通性预测。超参数设置：λ_{rel}=30, λ_{conn}=60。

03 · 实验结果与分析

STAR 数据集上的卓越表现

在包含 1273 张高分辨率卫星影像的 STAR 数据集上，RotatedSGG 在精度与轻量化上均显著超越现有方法。

53.08

参数量 (M)

仅为 RPCM 的约 1/10

19.10%

HMR@2000

领先 RPCM 2.14%

18.73%

R@100

优于主流单阶段水平框方法

7.66

推理显存 (G)

较 RPCM (22.72G) 大幅降低

与两阶段方法的对比 (STAR数据集)

模型	参数量 (M)	权重大小 (G)	mMR@2000 (%)	HMR@2000 (%)
PE-Net	-	-	9.30	13.16
RPCM	735	4.62	12.07	16.96
RotatedSGG (本文)	53.08	0.53	14.47	19.10

单阶段水平框方法对比

将旋转框转为水平框后，RotatedSGG 的 R@100 达 18.73%，优于 EGTR (16.55%) 和 SSR-CNN (16.71%)。
隐式建模有效应对了遥感影像中的高密度关系（平均每图 37.5 个，最高达 5699 个），避免了基于三元组查询方法的性能崩塌。

消融实验验证

主干网络： 替换为 LskNet 后，mR@100 从 7.59% 跃升至 16.66%，证明了大核选择机制对遥感多尺度目标的有效性。
特征融合模块： 结构解耦特征融合模块相比简单降维拼接，在 mR@100 上带来了 0.64% 的稳定精度提升。

04 · 结论与未来展望

轻量化与高精度的统一

RotatedSGG 填补了遥感领域缺乏高效单阶段旋转框场景图生成方法的空白，为高层语义理解奠定了基础。

核心贡献

提出首个单阶段旋转框 SGG 框架，多尺度感知增强与隐式关系建模成功解决了密集场景下关系爆炸问题，且极大地降低了计算资源需求。

局限性

多尺度剪切在极度下采样时仍可能丢失长距离小目标关系；此外，统一的网格划分策略在背景区域存在一定的计算浪费。

未来方向

探索动态剪切技术以根据目标密度自适应调整推理区域；引入视觉-语言大模型 (VLM) 进行微调，利用其常识推理能力提升语义关系识别精度。

顾及密集旋转场景的遥感影像场景图生成方法