面向空间插值的离群样点
地理-特征空间权重调整方法

董士伟 · 孟凤 · 刘玉 · 蒙雨露 · 王蕾 · 卢闯 · 张博强

研究背景与意义

核心问题

离群样点权重调整是影响目标属性空间插值精度的关键因素,但现有方法无法兼顾样点地理空间均匀性与特征空间代表性,导致插值精度受限。

研究目标

以科尔沁左翼中旗土壤有机质样点为例,提出一种地理-特征空间权重调整方法,在最小调整样点数量的前提下显著提升空间插值精度。

方法论框架

1

样点类型划分

  • 地理空间:基于泰森多边形面积划分为聚集、均匀、稀疏样点
  • 特征空间:根据代表性计算划分为高/低代表性样点
2

离群样点检测

  • 全局检测:四分位法识别3个全局离群样点
  • 局部检测:局部Moran's I识别35个局部离群样点
3

权重调整策略

  • 删除2个低代表性聚集离群样点
  • 调整24个高代表性离群样点权重

关键技术指标

样点分类结果

  • 聚集样点:34个(泰森多边形1.49-4.54 km²)
  • 均匀样点:380个(泰森多边形4.56-61.74 km²)
  • 稀疏样点:19个(泰森多边形63.79-322.23 km²)
  • 高代表性样点:261个 | 低代表性样点:172个

环境因子权重

  • 年均降水:0.1509(最高权重)
  • DEM高程:0.1461
  • 成土母质:0.1374
  • 土壤容重:0.1358
  • NDVI:0.0682(最低权重)

核心研究成果

11.25%
RMSE降低
3.768→3.344 g/kg
11.07%
MAE降低
2.809→2.498 g/kg
11.82%
准确度提升
AC: 0.609→0.681
55.98%
R²提升
0.209→0.326

统计特征优化

标准差:4.24 → 4.08 g/kg(减少0.16)

变异系数:28.84% → 27.85%(减少0.99%)

偏度系数:0.65 → 0.44(减少0.21)

峰度系数:1.59 → 0.72(减少0.87)

数据更接近正态分布,空间插值可靠性显著提升

方法对比与验证

权重调整方案对比

本研究方法(最优)
调整24个样点 | RMSE: 3.344 | AC: 0.681
方案a
调整26个样点 | RMSE: 3.349 | AC: 0.679
方案b
调整35个样点 | RMSE: 3.302 | AC: 0.721
方案c
调整38个样点 | RMSE: 3.291 | AC: 0.723

本方法以最少调整样点数实现显著精度提升

插值模型对比

随机森林回归克里金(最佳)
RMSE: 3.263 | MAE: 2.456 | AC: 0.722 | R²: 0.386
结合机器学习与地统计优势
本研究方法 + 普通克里金
RMSE: 3.344 | MAE: 2.498 | AC: 0.681 | R²: 0.326
优于随机森林,证明权重调整价值
原始样点 + 随机森林
RMSE: 3.525 | MAE: 2.643 | AC: 0.577 | R²: 0.196

结合样点空间结构信息对提升精度具有重要价值

研究区域与数据

研究区概况

  • 地点:内蒙古科尔沁左翼中旗
  • 面积:9,811 km²(耕地3,674 km²)
  • 气候:温带大陆性,年均温5.2°C
  • 降水:300-450 mm/年
  • 主要作物:玉米、大豆、水稻

样点数据

  • 采集时间:2017年
  • 样点总数:433个土壤样点
  • 采样深度:0-20 cm表层土壤
  • 采样方式:10m×10m网格五点混合
  • 测试指标:土壤有机质含量

环境因子

  • 土壤属性(5种)
  • 地形因子(3种)
  • 气象数据(3种)
  • 植被指数(NDVI)
  • 数据源:多源遥感与实测数据

方法论创新点

"本研究创新性地将地理空间均匀性特征空间代表性相结合, 通过泰森多边形面积划分和环境因子代表性计算,构建了双维度样点类型划分体系。 在此基础上,针对不同类型的离群样点制定差异化的权重调整策略, 实现了在最小样点调整数量前提下的最大插值精度提升。"