面向洪涝灾害影响评估的

大语言模型新闻文本挖掘研究

研究背景与意义

洪涝灾害严重性

  • 我国最严重的自然灾害之一
  • 2024年造成5344.9万人次受灾
  • 数千亿元直接经济损失
  • 主要江河发生26次编号洪水

多维度影响

  • 威胁生命财产安全
  • 破坏基础设施网络
  • 影响工农业生产
  • 中断商旅业服务

传统方法 vs 大语言模型

传统人工调查

优势

权威可靠、数据准确

劣势

耗费人力物力、时效性差、信息公开有限

大语言模型

优势

高效快速、近实时、多维度分析

应用

传统调查的重要补充工具

DeepSeek-R1-0528模型

Large Language Model for Disaster Assessment

采用DeepSeek-R1-0528大语言模型,通过提示词工程引导模型从新闻文本中提取结构化的洪涝灾害影响信息。

强大NLP能力

自然语言处理与理解

泛化能力

无需针对性训练

高效提取

快速处理海量文本

三阶段研究框架

阶段① 数据预处理

检索策略

DeepSeek设计检索关键词

数据获取

慧科数据库获取新闻

去重处理

TF-IDF算法去重

阶段② 信息提取与效果评估

测试数据集

50篇人工标注新闻

参数优化

重复实验优选温度参数

信息提取

提取灾害影响信息

阶段③ 影响评估与验证

分类体系

18个维度影响分类

对比验证

官方统计数据验证

动态演变

灾情演变过程展现

18维度影响分类体系

构建涵盖18个维度的经济社会影响分类体系,全面评估洪涝灾害的多维度影响。

人员影响

  • • 人员伤亡
  • • 人员受困
  • • 人员转移
  • • 人员失联

基础设施

  • • 交通中断
  • • 电力中断
  • • 通讯中断
  • • 供水中断

生产影响

  • • 农田淹没
  • • 工业停产
  • • 商业停业
  • • 房屋损毁

救援行动

  • • 应急响应
  • • 救援行动
  • • 物资调配
  • • 安置工作

社会服务

  • • 学校停课
  • • 医疗影响

提示词工程

通过提示词(Prompt)引导模型输出结构化的灾害影响信息,包含影响地点、发布时间、具体影响类型三要素。

1

角色定义

赋予模型基本角色

2

任务定义

定义信息抽取任务

3

输入文本

提供新闻正文

4

输出格式

JSON结构化输出

实验结果

10,556篇新闻文本中提取出14,778条洪涝灾害影响信息,模型性能表现优异。

模型性能指标

准确率(Accuracy)

0.91

中位数

F1分数

0.73

中位数

验证结果

与官方数据相关性

0.68

相关系数

空间分布一致性

高度吻合

与十大自然灾害受灾地区

典型案例分析

2024年4月粤北暴雨洪涝

受灾地区

清远、韶关

演变过程

有效捕捉灾情动态演变

焦点转变

从灾中抢险到灾后恢复

2024年6-7月湖南岳阳洪涝

受灾地区

湖南岳阳

时间跨度

6月至7月初

动态监测

展现灾情演变全过程

评价指标体系

准确率

Accuracy

正确识别占比

精确率

Precision

提取准确度

召回率

Recall

提取完整度

F1分数

F1 Score

综合评价

核心创新与优势

Core Innovation and Advantages

方法创新

  • 18维度分类体系
  • 提示词工程引导
  • 结构化信息提取

性能优势

  • 准确率0.91
  • F1分数0.73
  • 相关系数0.68

应用价值

  • 高效快速
  • 近实时监测
  • 多维度分析

研究成果总结

数据规模

10,556篇新闻

14,778条影响信息

验证效果

与官方数据高度一致

空间分布吻合

动态监测

捕捉灾情演变

展现全过程