DeepSeek模型优势
DeepSeek作为专注于中文的国产大语言模型,为旅游行程链提取提供了强大的技术支撑。
中文理解优势
更好理解中文旅游行程文本的各种表达方式
长文本处理
一次性处理整个旅游行程文档,理解全文上下文
少样本学习
仅需少量样本提示即可完成提取任务
三层描述模型
Three-Layer Descriptive Model
构建"行程链层-要素层-特征层"三层描述模型,实现旅游行程链的全方位描述和形式化统一表达。
行程链层
- • 基本信息(游客ID、出发时间)
- • 旅伴角色
- • 出行天数
- • 人均费用
要素层
- • 旅游节点(游览/生活/交通)
- • 链(交通路径)
- • 时间要素
- • 时序关系
特征层
- • 节点名称
- • 节点类型
- • 游客行为
- • 交通方式
四大核心模块
模块① 旅游行程链描述模型构建
构建三层描述模型,提供统一的数据组织标准和结构化模板
模块② 基于提示工程的数据生成
提示策略设计
角色定位、任务描述、输出格式
JSON数据生成
自动生成结构化行程链数据
模块③ 基于检索增强的名称匹配
外部知识库
景区名录、百度百科资料
检索增强生成
RAG技术匹配标准名称
模块④ 基于高德API的地理编码
将旅游节点名称转换为精确地理坐标,生成完整时空信息数据集
提示工程策略
设计提示策略和提示词模板,引导DeepSeek模型自动生成JSON格式的旅游行程链数据。
角色定位
定义模型为旅游行程链提取专家
任务描述
明确提取目标和输出要求
输出格式
指定JSON结构化数据格式
实验结果
采集马蜂窝、去哪儿、携程网三个平台共计2834篇河南省旅游行程文本,与HanLP模型进行对比验证。
旅游节点提取性能
宏精确率(Macro-Precision)
宏召回率(Macro-Recall)
宏F1分数(Macro-F1)
行程链相似度
平均相似度对比
本文方法
94%-95%
显著优于HanLP
HanLP模型
84%-87%
方法优势
精度更高
宏精确率和F1分数显著优于HanLP
操作便捷
仅需少量样本提示即可完成提取
信息丰富
包含时间、行为、交通等多维信息
提取信息类型
空间信息
- 旅游节点名称
- 节点类型(游览/生活/交通)
- 地理坐标(经纬度)
语义信息
- 时间信息(到达/离开时间)
- 游客行为(游览/住宿/用餐)
- 交通方式(高铁/自驾/步行)