本文面向渤海海冰密集度与厚度预测需求,提出一种基于改进 Stacking 集成学习的海冰预测模型。研究融合 ERA5 再分析气象海洋数据与 MODIS 卫星反演海冰产品,利用 KDTree 优化的 KNN-IDW 插值实现多源数据时空配准,并构建包含地理、时间、气象、海洋动力和物理交互特征的多维变量体系。在模型层面,本文改进传统 Stacking 架构,将基学习器预测结果与原始环境特征共同输入元学习器,从而实现面向不同环境条件的动态自适应融合。
海冰形成与演化直接影响海洋生态、海上交通、海洋石油开发和海水养殖等活动。渤海是中国最北端海域,具有显著季节性海冰特征。准确预测海冰密集度与厚度,对于防灾减灾、航运路线规划和海上作业风险评估具有重要意义。
数值模拟能够描述海冰热力学和动力学过程,但计算复杂、参数化方案不确定,业务化快速预测存在压力。
LSTM、CNN、ANN 等模型在海冰预测中已有应用,但单一模型往往难以同时适应复杂非线性、非平稳性与多源异构输入。
Stacking 可融合不同基模型的特长,但传统架构通常只将基学习器预测值输入元学习器,未充分利用环境原始特征调节融合权重。
研究流程包括数据获取、时空匹配、特征构建和模型集成四个环节。核心改进在于:元学习器不仅学习基模型输出,还同时读取原始环境特征,从而根据不同海气条件动态调整模型融合策略。
研究整合 ERA5 再分析数据与中国海洋大学 MODIS 海冰反演产品。ERA5 提供海表温度、2 m 气温、风场和波浪等环境要素,MODIS 数据提供海冰密集度 SIC 与海冰厚度 SIT。
针对不同数据源空间分辨率不一致的问题,采用基于 KDTree 空间索引优化的 k 近邻反距离加权插值方法,将数据统一配准至标准经纬度网格,提高海量空间点检索与插值效率。
构建地理位置、时间周期、气象海洋环境要素和物理交互特征,体现海冰生消过程中的热力和动力机制。特征包括经纬度、日期、月份、SST、2 m 气温、风速、风向、波高、波向、温度梯度以及温度—风速、SST—波高等交互项。
基学习器包括 LightGBM、XGBoost、Random Forest 和 CatBoost,元学习器采用 LightGBM。不同于传统 Stacking 仅使用基学习器预测值,本文将原始环境特征也输入元学习器,使其学习“环境条件—基模型误差—融合权重”之间的映射关系。
研究将数据集按 8:2 划分,并与单一机器学习模型和加权投票集成模型进行对比。结果显示,改进 Stacking 在海冰密集度和海冰厚度预测中均显著提升精度。
| 预测对象 | 改进 Stacking 表现 | 对比基准 | 性能提升 | 说明 |
|---|---|---|---|---|
| 海冰密集度 SIC | R² = 0.8956,RMSE = 0.0134,MAPE = 8.45% | 最优单一模型 LightGBM:R² = 0.7204 | R² 提升 24.32%,RMSE 降低约 89.79% | 空间覆盖范围和强度等级拟合较好 |
| 海冰厚度 SIT | R² = 0.8753,RMSE = 0.0434,MAPE = 10.67% | 最优单一模型 LightGBM:R² = 0.7312 | R² 提升 19.70%,RMSE 降低约 71.80% | 能够较好捕捉厚度变化趋势 |
本文构建的改进 Stacking 海冰预测模型突破了传统单一模型的局限,在多源数据融合、物理特征构建和动态集成学习方面均具有应用价值,可为海洋环境监测、航运风险预警和海上作业安全保障提供技术支撑。
KDTree 优化的 KNN-IDW 插值方法提高了多源异构海洋环境数据的时空配准效率,为统一建模提供基础。
引入温度梯度、温度—风速、SST—波高等交互特征,使机器学习模型更贴近海冰热力与动力过程。
双源输入的改进 Stacking 模型能够学习原始环境条件与基模型误差之间的关系,实现动态自适应融合。