大语言模型提示学习增强的
轨迹知识图谱构建方法

郭漩, 张金雪, 魏伊冰, 于淑彤, 刘俊楠, 刘海砚, 徐道柱, 徐明亮

研究核心

本研究提出了一种创新性的轨迹知识图谱构建方法,通过大语言模型的提示学习技术,显著降低了知识图谱构建的技术门槛,使非专业用户能够通过自然语言指令完成复杂的图谱构建任务。

传统的知识图谱构建方法依赖专业知识和繁重的数据处理工作,而本方法将复杂流程封装于提示模板与自动化工具中,实现了从"信息服务"到"知识服务"的跨越式转变。

核心创新点

自然语言驱动

支持以自然语言驱动的任务执行流程,用户无需掌握复杂的编程技能和深度语义理解能力。

智能代码生成

设计预处理任务提示策略,引导模型自动生成异常轨迹数据处理代码,大幅降低编程能力依赖。

两级提示策略

创新性的两级系统提示策略,实现轨迹实体关系抽取工具的精准匹配与自动调用。

技术架构

1 数据预处理阶段

  • 设计"五步法"任务提示策略(任务需求、情景信息、数据说明、标准输出、样例数据)
  • 自动生成Python预处理代码,处理位置、速度、方向等异常情况
  • 支持用户通过自然语言设定异常阈值和类型参数

2 知识抽取阶段

  • 第一级提示:任务类型识别(实体抽取 vs 关系抽取)
  • 第二级提示:精准匹配并调用封装好的抽取工具
  • 支持4种实体(User、Stop、Move、Geo)和4种关系的自动抽取

本体设计框架

核心概念体系

移动对象 (User)

产生轨迹行为的主体实体

停留段 (Stop)

对象在时空范围内停止或小范围移动的状态

移动段 (Move)

对象从一个停留段转换到另一停留段的移动状态

地物 (Geo)

停留过程中所处的地理位置实体

关系设计

时序关系

has_start_stop、has_end_stop 描述停留段与移动段的顺序

空间关系

has_locatedat 关联停留段与地物要素的地理位置

行为关系

has_move 将移动对象与其移动行为关联

基于Stop/Move模型的本体设计,通过"停留-移动-停留"状态序列,结构化表达移动对象的轨迹状态,并建立与地物的语义关联。

实验验证成果

数据集规模

船舶AIS数据 442,478条记录
车辆GPS数据 10,002条轨迹
测试语句集 400个样本

模型表现

通义千问 (Qwen-turbo)
预处理准确率: 77.9%
工具匹配准确率: 86.9%
百度千帆 (ERNIE-3.5)
预处理准确率: 79.0%
工具匹配准确率: 84.2%

关键发现

  • 01 在两种主流大语言模型上均达到75%和80%以上的准确率,验证了方法的有效性和泛化能力。
  • 02 完整的五步提示策略对代码生成质量至关重要,缺少任何一个环节都会影响最终效果。
  • 03 两级提示策略在实体抽取和关系抽取任务中均表现优异,F1值普遍超过80%。
  • 04 方法在不同数据源(船舶轨迹、车辆轨迹)和不同干扰条件下均展现出良好的稳健性。
16,547
船舶用户实体
User Entities
949,085
移动段抽取
Move Segments
956,000
停留段抽取
Stop Segments

构建的轨迹知识图谱成功整合了海量时空数据,实现了从离散轨迹点到结构化知识的转化,为智能问答、路径分析等下游应用提供了坚实基础。

应用场景与价值

智能问答系统

开发轨迹图谱智能问答系统,用户通过自然语言查询船舶或车辆的完整轨迹信息,系统自动生成图谱查询语句并可视化展示结果。

路径规律分析

基于知识图谱的关联查询能力,精准获取移动对象的Stop段、Move段及地理位置信息,为路径规律挖掘提供结构化支持。

降低技术门槛

非专业用户无需掌握复杂的编程技能和算法知识,仅通过简单的自然语言指令即可完成知识图谱构建全流程。

知识服务转型

推动轨迹数据从传统的"信息服务"向"知识服务"转变,实现海量数据向关联知识的有效转化。

方法论亮点

提示策略设计原则

提示词越详细,生成结果越符合预期。通过任务需求、情景信息、数据说明、标准输出和样例数据的完整组合,确保大语言模型准确理解任务意图。

任务分解思想

将复杂的实体关系抽取任务分解为任务类型识别和工具匹配调用两个子任务,通过两级提示策略逐步引导模型完成,避免单一提示策略的局限性。

工具封装与调用

将成熟的实体关系抽取算法封装为标准化工具,通过工具名称、功能描述和参数定义的规范化描述,使大语言模型能够精准匹配并调用。

跨模型泛化能力

在通义千问和百度千帆两种不同架构的大语言模型上均取得优异表现,证明了提示策略的通用性和鲁棒性,不依赖特定模型架构。

未来研究方向

01

优化机制

结合用户反馈机制优化提示与工具配置,提升模型响应效率与资源利用能力,解决大规模数据处理的扩展性问题。

02

结构扩展

拓展轨迹图谱的结构层级与关系类型,增强对复杂轨迹行为和空间事件的表达能力,支持更丰富的语义建模。

03

可信度提升

引入不确定性评估与结果校验机制,提高图谱构建结果的可解释性与可信度,增强实际应用的可靠性。