基于改进 Stacking 集成的
海冰密集度与厚度预测模型

姜鑫鑫、张秀凤、余英杰、等 地球信息科学学报 · 2026 · 28(6): 1706-1718 案例区:渤海 海冰密集度 SIC / 海冰厚度 SIT

本文面向渤海海冰密集度与厚度预测需求,提出一种基于改进 Stacking 集成学习的海冰预测模型。研究融合 ERA5 再分析气象海洋数据与 MODIS 卫星反演海冰产品,利用 KDTree 优化的 KNN-IDW 插值实现多源数据时空配准,并构建包含地理、时间、气象、海洋动力和物理交互特征的多维变量体系。在模型层面,本文改进传统 Stacking 架构,将基学习器预测结果与原始环境特征共同输入元学习器,从而实现面向不同环境条件的动态自适应融合。

海冰预测 改进 Stacking 多源数据融合 海冰密集度 海冰厚度 渤海
↓ 向下滚动阅读

01 · 研究背景与问题

高精度海冰预测是冰区安全保障的基础

海冰形成与演化直接影响海洋生态、海上交通、海洋石油开发和海水养殖等活动。渤海是中国最北端海域,具有显著季节性海冰特征。准确预测海冰密集度与厚度,对于防灾减灾、航运路线规划和海上作业风险评估具有重要意义。

传统数值模型成本高

数值模拟能够描述海冰热力学和动力学过程,但计算复杂、参数化方案不确定,业务化快速预测存在压力。

单一机器学习模型有限

LSTM、CNN、ANN 等模型在海冰预测中已有应用,但单一模型往往难以同时适应复杂非线性、非平稳性与多源异构输入。

集成学习具备互补优势

Stacking 可融合不同基模型的特长,但传统架构通常只将基学习器预测值输入元学习器,未充分利用环境原始特征调节融合权重。


02 · 数据融合与模型方法

从多源时空配准到双源输入 Stacking 集成

研究流程包括数据获取、时空匹配、特征构建和模型集成四个环节。核心改进在于:元学习器不仅学习基模型输出,还同时读取原始环境特征,从而根据不同海气条件动态调整模型融合策略。

D1
多源数据整合

研究整合 ERA5 再分析数据与中国海洋大学 MODIS 海冰反演产品。ERA5 提供海表温度、2 m 气温、风场和波浪等环境要素,MODIS 数据提供海冰密集度 SIC 与海冰厚度 SIT。

ERA5 MODIS SIC SIT
D2
KDTree 优化的 KNN-IDW 时空匹配

针对不同数据源空间分辨率不一致的问题,采用基于 KDTree 空间索引优化的 k 近邻反距离加权插值方法,将数据统一配准至标准经纬度网格,提高海量空间点检索与插值效率。

KDTree KNN-IDW Spatial Matching 0.25° Grid
F3
物理机制驱动的特征工程

构建地理位置、时间周期、气象海洋环境要素和物理交互特征,体现海冰生消过程中的热力和动力机制。特征包括经纬度、日期、月份、SST、2 m 气温、风速、风向、波高、波向、温度梯度以及温度—风速、SST—波高等交互项。

SST T2m Wind Wave Interaction Features
M4
改进 Stacking 集成模型

基学习器包括 LightGBM、XGBoost、Random Forest 和 CatBoost,元学习器采用 LightGBM。不同于传统 Stacking 仅使用基学习器预测值,本文将原始环境特征也输入元学习器,使其学习“环境条件—基模型误差—融合权重”之间的映射关系。

LightGBM XGBoost Random Forest CatBoost Improved Stacking

研究区:渤海

  • 中国最北端海域,冬季海冰特征显著。
  • 辽东湾冰情最重,渤海湾和莱州湾次之。
  • 中央海盆通常冰情较弱或基本无冰。
  • 海冰时空差异受纬度、陆地影响、水深、风浪和温度共同控制。

双源输入的意义

  • 基模型输出提供多模型对目标变量的初步判断。
  • 原始环境特征提供当前海气背景信息。
  • 元学习器可识别不同环境条件下哪个基模型更可靠。
  • 相比固定权重融合,更适合非线性和非平稳海冰过程。

03 · 预测结果与验证

改进 Stacking 在密集度与厚度预测中均表现最优

研究将数据集按 8:2 划分,并与单一机器学习模型和加权投票集成模型进行对比。结果显示,改进 Stacking 在海冰密集度和海冰厚度预测中均显著提升精度。

2021-2023
冬季数据时段
4
基学习器
0.8956
SIC 预测 R²
0.8753
SIT 预测 R²
预测对象 改进 Stacking 表现 对比基准 性能提升 说明
海冰密集度 SIC R² = 0.8956,RMSE = 0.0134,MAPE = 8.45% 最优单一模型 LightGBM:R² = 0.7204 R² 提升 24.32%,RMSE 降低约 89.79% 空间覆盖范围和强度等级拟合较好
海冰厚度 SIT R² = 0.8753,RMSE = 0.0434,MAPE = 10.67% 最优单一模型 LightGBM:R² = 0.7312 R² 提升 19.70%,RMSE 降低约 71.80% 能够较好捕捉厚度变化趋势

空间维度验证

  • 以 2023 年 1 月 25 日为典型日期进行空间采样分析。
  • 辽东湾预测出最高冰厚与最高密集度,符合其高纬度和陆地影响显著的特点。
  • 莱州湾与渤海湾呈现中低强度冰情。
  • 中央海盆基本无冰,预测结果与实际观测高度一致。

时间维度验证

  • 以辽东湾中部观测点追踪 2022 年 12 月至 2023 年 2 月海冰生消过程。
  • 初冬 12 月海冰开始形成并稳定增长。
  • 隆冬 1 月冰厚与密集度达到峰值。
  • 早春 2 月随气温回升,海冰快速消融,模型可捕捉关键转折点。
核心发现:海冰预测精度提升不仅来自更复杂的算法,更来自“物理机制特征 + 多模型互补 + 环境感知融合权重”的组合设计。改进 Stacking 的优势在于让元学习器根据当前海气条件动态判断不同基模型的可靠性。

04 · 结论与应用启示

数据驱动海冰预测应进一步走向物理机制约束的智能融合

本文构建的改进 Stacking 海冰预测模型突破了传统单一模型的局限,在多源数据融合、物理特征构建和动态集成学习方面均具有应用价值,可为海洋环境监测、航运风险预警和海上作业安全保障提供技术支撑。

数据融合创新

KDTree 优化的 KNN-IDW 插值方法提高了多源异构海洋环境数据的时空配准效率,为统一建模提供基础。

特征体系完整

引入温度梯度、温度—风速、SST—波高等交互特征,使机器学习模型更贴近海冰热力与动力过程。

集成架构改进

双源输入的改进 Stacking 模型能够学习原始环境条件与基模型误差之间的关系,实现动态自适应融合。

应用价值

  • 支撑渤海冬季海冰密集度和厚度快速预测。
  • 服务海上航行路线规划与冰区通航安全。
  • 辅助海洋油气开发、养殖生产和防灾减灾决策。
  • 为海冰遥感监测产品的业务化预测提供数据智能方法。

局限与未来方向

  • 短时强风、寒潮等极端气象过程仍可能造成局部预测偏差。
  • 多源数据插值和尺度转换会引入一定误差。
  • 当前数据主要反映常冰年,对重冰年可能存在低估。
  • 未来可构建“数据驱动 + 物理机理”的混合预测框架。