基于DeepSeek的旅游行程链

提取方法研究与实现

研究背景与意义

旅游行程文本价值

  • 旅游地理大数据重要来源
  • 行业分析与决策支持
  • 智能化路线推荐基础
  • 游客行为模式分析

现有方法局限

  • 规则匹配灵活性不足
  • 深度学习标注工作量大
  • 提取内容覆盖不全面
  • 难以构建完整行程链

DeepSeek模型优势

DeepSeek作为专注于中文的国产大语言模型,为旅游行程链提取提供了强大的技术支撑。

中文理解优势

更好理解中文旅游行程文本的各种表达方式

长文本处理

一次性处理整个旅游行程文档,理解全文上下文

少样本学习

仅需少量样本提示即可完成提取任务

三层描述模型

Three-Layer Descriptive Model

构建"行程链层-要素层-特征层"三层描述模型,实现旅游行程链的全方位描述形式化统一表达

1

行程链层

  • • 基本信息(游客ID、出发时间)
  • • 旅伴角色
  • • 出行天数
  • • 人均费用
2

要素层

  • • 旅游节点(游览/生活/交通)
  • • 链(交通路径)
  • • 时间要素
  • • 时序关系
3

特征层

  • • 节点名称
  • • 节点类型
  • • 游客行为
  • • 交通方式

四大核心模块

模块① 旅游行程链描述模型构建

构建三层描述模型,提供统一的数据组织标准和结构化模板

模块② 基于提示工程的数据生成

提示策略设计

角色定位、任务描述、输出格式

JSON数据生成

自动生成结构化行程链数据

模块③ 基于检索增强的名称匹配

外部知识库

景区名录、百度百科资料

检索增强生成

RAG技术匹配标准名称

模块④ 基于高德API的地理编码

将旅游节点名称转换为精确地理坐标,生成完整时空信息数据集

提示工程策略

设计提示策略提示词模板,引导DeepSeek模型自动生成JSON格式的旅游行程链数据。

角色定位

定义模型为旅游行程链提取专家

任务描述

明确提取目标和输出要求

输出格式

指定JSON结构化数据格式

实验结果

采集马蜂窝、去哪儿、携程网三个平台共计2834篇河南省旅游行程文本,与HanLP模型进行对比验证。

旅游节点提取性能

宏精确率(Macro-Precision)

本文方法 92%-95%
HanLP 87%-91%

宏召回率(Macro-Recall)

本文方法 94%-96%
HanLP 94%-97%

宏F1分数(Macro-F1)

本文方法 92%-95%
HanLP 87%-91%

行程链相似度

平均相似度对比

本文方法

94%-95%

显著优于HanLP

HanLP模型

84%-87%

方法优势

精度更高

宏精确率和F1分数显著优于HanLP

操作便捷

仅需少量样本提示即可完成提取

信息丰富

包含时间、行为、交通等多维信息

提取信息类型

空间信息

  • 旅游节点名称
  • 节点类型(游览/生活/交通)
  • 地理坐标(经纬度)

语义信息

  • 时间信息(到达/离开时间)
  • 游客行为(游览/住宿/用餐)
  • 交通方式(高铁/自驾/步行)

核心创新与优势

Core Innovation and Advantages

模型创新

  • 三层描述模型
  • 统一数据组织标准
  • 形式化表达

技术创新

  • 提示工程策略
  • 检索增强生成(RAG)
  • 地理编码集成

性能优势

  • 精确率92%-95%
  • 相似度94%-95%
  • 显著优于HanLP

方法对比总结

精确率

提升5-8个百分点

相似度

提升10个百分点

信息丰富度

包含多维时空语义信息