顾及距离衰减效应的
地理知识图谱补全方法

Distance-Decaying Effect-Aware Geographic Knowledge Graph Completion

研究背景

核心问题

地理知识图谱因信息分布稀疏和更新滞后导致不完整,现有补全方法未充分考虑语义信息距离衰减效应,限制了补全性能。

地理特性

地理实体具有明显的空间分布特征,符合距离衰减效应——实体间交互强度随空间距离增加而减弱,这是提升地理知识表示的关键信息。

DDGKGC 方法架构

Distance-Decaying Effect-Aware Geographic Knowledge Graph Completion

语义-距离融合模块

Semantic-Distance Fusion

  • 语义信息聚合:捕获实体关系深层语义特征
  • 距离衰减感知:通过Haversine公式和高斯核函数建模空间关联

双注意力表示学习

Dual-Attention Learning

  • 实体表示:区分传出/传入邻域,精准聚合
  • 关系表示:多头注意力机制捕捉复杂交互

模型训练优化

Training & Optimization

  • ConvE得分函数:CNN捕捉实体关系交互
  • BCE损失:二元交叉熵反向传播优化

核心公式体系

语义得分计算

通过可学习参数向量和三元组嵌入获取语义信息:

αsem_ijk = aT·LeakyReLU(W·vijk)

距离权重建模

Haversine公式计算地理距离,高斯核函数转化为权重:

weiej = exp(-d²eiej / 2σ²)

实验数据集

Multi-Geo

郑州市多源地理数据,19,874个实体,259,361个三元组

CityDirection

国内城市方位信息,3,298个实体,121,250个三元组

CountyDistance

县级行政区距离,2,900个实体,30,390个三元组

Countries-S3

国际基准数据集,272个实体,1,033个三元组

实验性能突破

Performance Breakthrough

4.0%

Multi-Geo

MRR Improvement

3.1%

CityDirection

MRR Improvement

1.8%

CountyDistance

MRR Improvement

5.2%

Countries-S3

MRR Improvement

关键性能指标

MRR

平均倒数排名,全面衡量模型性能的核心指标

Hits@N

命中率指标,评估前N个预测的准确性

MR

平均排名,数值越小表示预测性能越优

实验验证与分析

消融实验

  • 移除任一核心组件均导致性能显著下降
  • 距离衰减模块使近距实体增强、远距实体抑制
  • 多头注意力机制提升多子空间特征捕捉能力

嵌入可视化

  • t-SNE分析显示实体嵌入呈现清晰空间聚集
  • 高权重实体形成紧密簇状结构
  • 证明距离衰减效应的有效建模机制

稀疏性分析

  • 所有入度组别中DDGKGC均优于对比模型
  • 距离信息有效补充稀疏实体的语义不足
  • 物理距离约束增强关系合理性判断

参数敏感性

  • 最优嵌入维度:256,负采样数量:128
  • 维度过小无法保留足够结构信息
  • 维度过大可能引入噪声影响性能

案例验证

空间关系预测

问题:(?,相邻,中国)

预测:俄罗斯、蒙古、印度、塔吉克斯坦

问题:(北京,东,?)

预测:唐山、秦皇岛、大连、营口

地理实体定位

问题:(香港,位于,?)

预测:亚洲、东亚、东南亚、南亚

问题:(黄河中下游分界点,位于,?)

预测:桃花峪、郑州、荥阳

行政编码识别

问题:(?,行政区划代码,410100)

预测:郑州、开封、洛阳、商丘

问题:(浦东新区,城内非常远,?)

预测:嘉定区、松江区、青浦区

案例分析表明,DDGKGC能够精确预测测试集中的正确实体,在预测(?,相邻,中国)时不仅正确识别4个邻国,还保持了实体层级的一致性,充分验证了模型在空间推理和距离感知方面的卓越能力。