基于DeepSeek的旅游行程链提取研究

研究背景与意义

旅游行程文本价值

旅游地理大数据重要来源
行业分析与决策支持
智能化路线推荐基础
游客行为模式分析

现有方法局限

规则匹配灵活性不足
深度学习标注工作量大
提取内容覆盖不全面
难以构建完整行程链

DeepSeek模型优势

DeepSeek作为专注于中文的国产大语言模型，为旅游行程链提取提供了强大的技术支撑。

中文理解优势

更好理解中文旅游行程文本的各种表达方式

长文本处理

一次性处理整个旅游行程文档，理解全文上下文

少样本学习

仅需少量样本提示即可完成提取任务

三层描述模型

Three-Layer Descriptive Model

构建"行程链层-要素层-特征层"三层描述模型，实现旅游行程链的全方位描述和形式化统一表达。

1

行程链层

• 基本信息（游客ID、出发时间）
• 旅伴角色
• 出行天数
• 人均费用

2

要素层

• 旅游节点（游览/生活/交通）
• 链（交通路径）
• 时间要素
• 时序关系

3

特征层

• 节点名称
• 节点类型
• 游客行为
• 交通方式

四大核心模块

模块① 旅游行程链描述模型构建

构建三层描述模型，提供统一的数据组织标准和结构化模板

模块② 基于提示工程的数据生成

提示策略设计

角色定位、任务描述、输出格式

JSON数据生成

自动生成结构化行程链数据

模块③ 基于检索增强的名称匹配

外部知识库

景区名录、百度百科资料

检索增强生成

RAG技术匹配标准名称

模块④ 基于高德API的地理编码

将旅游节点名称转换为精确地理坐标，生成完整时空信息数据集

提示工程策略

设计提示策略和提示词模板，引导DeepSeek模型自动生成JSON格式的旅游行程链数据。

角色定位

定义模型为旅游行程链提取专家

任务描述

明确提取目标和输出要求

输出格式

指定JSON结构化数据格式

实验结果

采集马蜂窝、去哪儿、携程网三个平台共计2834篇河南省旅游行程文本，与HanLP模型进行对比验证。

旅游节点提取性能

宏精确率（Macro-Precision）

本文方法 92%-95%

HanLP 87%-91%

宏召回率（Macro-Recall）

本文方法 94%-96%

HanLP 94%-97%

宏F1分数（Macro-F1）

本文方法 92%-95%

HanLP 87%-91%

行程链相似度

平均相似度对比

本文方法

94%-95%

显著优于HanLP

HanLP模型

84%-87%

方法优势

精度更高

宏精确率和F1分数显著优于HanLP

操作便捷

仅需少量样本提示即可完成提取

信息丰富

包含时间、行为、交通等多维信息

提取信息类型

空间信息

旅游节点名称
节点类型（游览/生活/交通）
地理坐标（经纬度）

语义信息

时间信息（到达/离开时间）
游客行为（游览/住宿/用餐）
交通方式（高铁/自驾/步行）

基于DeepSeek的旅游行程链

提取方法研究与实现