共位置模式挖掘算法
通过计算共现的两类对象在空间位置上邻近出现的概率,探测其空间关联模式及强度。
核心概念
识别不同类型空间对象邻近出现的规律
度量指标
参与指数(PI)量化空间关联程度
应用优势
识别地理要素的空间关联与依赖特征
传统算法的三大问题
问题① 阈值设定
基于先验知识全局设定统一阈值,忽略对象独特的空间邻近关系
问题② 搜索效率
暴力搜索算法复杂度高、计算效率低,限制挖掘效率
问题③ 虚假关联
受对象分布差异影响,易识别出虚假的空间关联点对
三大改进策略
Three Key Improvements
针对传统算法的问题,从阈值设定、搜索策略、显著性检验三个方面进行优化改进。
自适应阈值
基于最邻近距离法,充分考虑空间对象分布特征
K-D树搜索
索引和递归划分,有效降低近邻搜索复杂度
蒙特卡洛模拟
显著性检验,有效剔除虚假空间关联点对
参与指数(PI)
参与指数(Participation Index, PI)用于度量传染病病例与城市场所之间的共位置关系强度。
计算方法
取两个比例的最小值:
- • 与病例邻近的场所占场所总数的比例
- • 与场所邻近的病例占病例总数的比例
指标意义
PI取值范围[0,1]:
- • 数值越大,空间关联性越强
- • 呈现频繁空间邻近的概率越大
- • 表示传播风险越高
登革热案例研究
以广州市2017-2019年登革热疫情为例,识别传播流行的空间节点,验证方法有效性。
疾病特征
- • 虫媒传染病
- • 伊蚊叮咬传播
- • 南方高发频发
研究区域
- • 广州市
- • 2017-2019年
- • 高度城市化地区
研究目标
- • 识别关键场所
- • 分析空间节点
- • 精准防控支持
研究结果
显著性检验效果
基于蒙特卡洛模拟方法的显著性检验可以有效剔除与登革热病例虚假空间关联的城市场所
自适应阈值优势
识别数量
识别出更多的空间节点
邻近距离
更符合实际情况
典型空间节点
报刊亭
PI值:0.22 - 0.73
病例密度显著高于区域平均
疗养场所
PI值:0.41 - 0.61
流行强度明显高于非节点
时空特征
区域差异
不同区域节点分布不同
年际变化
2017-2019年呈现差异
人群特征
与年龄职业密切相关
方法框架
1 数据准备
- • 病例数据采集
- • 城市场所数据获取
- • 空间坐标标注
2 阈值确定
- • 基于最邻近距离法
- • 自适应阈值计算
- • 考虑空间分布特征
3 邻近搜索
- • K-D树算法优化
- • 高效近邻搜索
- • 降低计算复杂度
4 PI计算
- • 计算参与指数
- • 量化空间关联强度
- • 识别共位置模式
5 显著性检验
- • 蒙特卡洛模拟
- • 0.05水平显著性检验
- • 剔除虚假关联