地理对象具有多要素耦合的复杂特征。传统的地理信息系统(GIS)存在工具分散、交互门槛高、决策缺失等局限。大语言模型(LLM)的出现为重构以语言为中心的人机交互提供了技术基础。将 LLM 与空间信息技术融合(即 Geo-LLM),旨在实现基于语义的地理执行自主性,优化空间分析决策效率,为地理信息科学(GIScience)开辟新方向。
传统的 GIS 依赖预设流程和图形界面,难以适应复杂情境下的个性化需求,亟需引入大语言模型的推理与决策能力。
实现路径分散,依赖基于规则的操作。传统自动化流(如模型构建器)侧重数据处理,缺乏问题解析和策略制定的高层决策能力。
LLM 在语义理解、任务抽象和推理方面表现出强大能力,为重构以自然语言为中心的人机交互提供了技术基础。
将 LLM 与空间信息技术融合,实现基于语义的地理执行自主性,优化空间分析决策效率,推动 GIScience 的发展。
Geo-LLM 的核心在于将通用 LLM 的语义能力迁移至地理领域,并扩展其执行能力,形成从知识问答到空间推理的功能金字塔。
侧重于对地理事实、地名、空间实体属性的理解,以及基本空间关系的语义解析。
将自然语言转化为脚本(Python/SQL)或工具调用序列,处理矢量/栅格数据,实现 ReAct 范式和函数调用 (Function Calling)。
强调多源信息整合、时空因果分析和多步骤规划,接近空间决策辅助代理 (Agent)。
| 任务类别 | 研究名称 | 主要用途 | 数据集特征 |
|---|---|---|---|
| 综合/问答 | GeoQAMap | 地理问题回答系统 | 900个问答对,涵盖地理知识、地图阅读、推理等 |
| 坤元 (KunYuan) | 地理科学领域大模型 | 中国科学院发布,侧重地理科学专业知识 | |
| 数据采集 | GeoAgent | 地址标准化智能体 | 7540 K 条地理编码数据,支持地址关联与标准化 |
| EarthGPT | 遥感图像理解 | MMRS-1M 数据集,包含 100 万组多传感器图像-文本对 | |
| 空间分析 | GeoGPT | 地理空间任务理解与处理 | 驱动地理空间工具链执行复杂任务 |
| GeoTool-GPT | GIS 工具掌握 | 1950 对命令-响应,覆盖 172 个 GIS 工具功能 | |
| 可视化 | MapGPT | 制图智能体 | 包含 68 种专门用于控制地图元素细节的工具 |
为缓解“地理空间幻觉”并提升执行稳定性,研究者在知识注入、多模态增强和推理链设计上进行了大量探索。
通过向量检索和知识图谱(KG)增强提供外部知识约束;或通过特定语料库微调(SFT)将地理事实内化至模型参数。
建立工具注册机制调度 GIS 工具;在多模态理解上,探索视觉编码器对齐或直接将轨迹向量编码为类 token 序列。
从线性推理(CoT)向搜索推理(ToT/AoT)演进,结合多路径一致性和交互式修正(CoP),提升复杂决策的稳定性。
尽管取得了显著进展,Geo-LLM 在空间结构推理、中间过程管理和稳健性评估等方面仍存在瓶颈。