无人机视觉绝对定位方法
研究综述

孔令博 · 李建胜 · 王安成 · 杨宇飞 · 等地球信息科学学报 · 2026 · Vol.28 No.6 Absolute Visual Localization, AVL

在公共安全、民用经济及军事领域，无人机自主定位能力是核心支撑。传统 GNSS 在复杂环境下易受干扰、遮挡或攻击而失效。视觉绝对定位通过将无人机实时影像与带地理参考的先验数据（卫星影像、DEM、矢量地图等）进行映射，直接解算全局坐标系下的位姿，成为实现全时域、多场景鲁棒定位的关键替代方案。

无人机定位视觉绝对定位 GNSS 拒止环境跨域匹配深度学习多源融合

向下滚动阅读

01 · 研究背景与定位需求

GNSS 失效场景下的替代定位技术

无人机在低空、城市峡谷、战场对抗、灾害现场等环境中，常面临 GNSS 信号不稳定甚至不可用的问题，视觉绝对定位因此成为自主导航的重要方向。

GNSS 脆弱性

干扰、遮挡与欺骗

卫星导航在复杂电磁环境、城市密集区、森林峡谷和室内外过渡区域中容易出现信号丢失或定位漂移。

视觉绝对定位

直接解算全局位姿

通过实时机载影像与带地理参考的先验数据匹配，直接获得无人机在全局坐标系中的位置与姿态。

核心挑战

跨域差异与实时性

无人机影像与卫星影像、DEM 或地图数据在尺度、视角、光照、季节、传感器模态上差异显著，匹配难度大。

02 · 方法演进脉络

从人工特征几何匹配到场景认知

无人机 AVL 方法经历了从局部特征对齐、全局图像检索到深度学习语义匹配的发展过程，其核心是逐步增强跨域鲁棒性。

T1

基于人工特征的传统定位方法

早期方法借鉴图像配准技术，利用 SIFT、SURF、ORB 等特征进行关键点提取、描述子匹配与几何一致性验证。该类方法可解释性强，但对剧烈视角变化、光照变化与跨模态差异较敏感。

SIFT/SURF/ORB几何匹配RANSAC

T2

基于图像检索与地理数据库的定位

将无人机当前视图作为查询影像，在大范围地理参考数据库中检索相似影像，再通过局部匹配或位姿估计完成定位。该思路适合大范围候选区域筛选，但数据库构建和高效索引是关键。

图像检索地理参考库粗到精定位

T3

基于深度学习的跨域定位方法

深度网络能够学习具有更强语义表达和跨域不变性的特征，从“特征对齐”转向“场景认知”。包括卷积网络、Transformer、对比学习、跨视角匹配和视觉-语言先验等方向。

CNN/Transformer跨视角匹配语义表征

AVL 基本任务链条

UAV Image → Feature / Semantic Representation
→ Geo-referenced Prior Matching
→ Global Pose Estimation

视觉绝对定位的关键在于建立实时影像与先验地理数据之间的稳定映射关系。

参考数据类型

• 卫星 / 航空正射影像
• DEM / DSM / 三维模型
• 矢量地图 / 道路网 / 语义地图
• 多时相遥感影像库

不同先验数据提供互补信息：影像提供纹理，DEM 提供地形，矢量地图提供语义结构。

03 · 关键技术挑战

跨域、跨尺度、跨视角与资源约束

无人机 AVL 的难点并不只是图像匹配，而是要在真实飞行约束下同时保证定位精度、鲁棒性、实时性与可部署性。

Cross

跨域差异

传感器/光照/季节差异

Scale

尺度变化

飞行高度与分辨率变化

View

视角差异

斜视/旋转/透视畸变

Edge

边缘部署

轻量化与低功耗推理

传统几何路线的优势与瓶颈

优势： 几何约束明确、可解释性强、对小样本依赖较低。
瓶颈： 在弱纹理、重复纹理、季节变化和大视角差异下，特征匹配容易退化。
适用： 纹理清晰、视角差异较小、参考影像质量较高的任务场景。

深度学习路线的优势与瓶颈

优势： 能学习高层语义与跨域不变特征，对复杂场景更鲁棒。
瓶颈： 依赖大规模标注或地理参考训练数据，跨区域泛化仍是难题。
适用： 大范围检索、复杂地表、跨模态和 GNSS 拒止场景。

04 · 发展趋势与未来路径

多源融合、轻量化与跨域泛化

未来无人机视觉绝对定位将从单一影像匹配走向多源地理先验协同，从离线高精度算法走向端侧实时智能定位。

多源地理先验融合

融合卫星影像、DEM、矢量地图、三维场景与语义地图，可弥补单一数据源在遮挡、季节变化和纹理退化场景下的不足。

轻量化与端侧实时推理

无人机平台对算力、功耗和载荷敏感，未来需发展模型压缩、知识蒸馏、轻量 Transformer 与硬件协同优化方法。

跨域泛化与可信评估

需要构建覆盖不同地貌、季节、传感器和飞行高度的标准化基准数据集，并形成面向任务风险的定位精度与可靠性评估体系。

无人机视觉绝对定位方法研究综述