Multimodal Recommendation · Self-Supervised Learning

自监督对比学习驱动的
SMWRec多模态微地图推荐

Align-Before-Fuse: A Graph-Based Multimodal Paradigm

马文骏 · 闫浩文 · 李精忠 等
兰州交通大学
2026年1月

什么是微地图(Wemaps)?

融合社交性、传播性与可视化表达的新型地图形式

依托自媒体生态,将地图从静态载体转变为具有强交互性的"个人媒体"

实现"由大众生产、为大众传播"的信息流转路径

微地图推荐面临的三大挑战

模态信息不完整

图像由结构化图符组成,缺乏纹理细节;文本依赖空间语境,易导致语义不一致

🔍

结构抽象表达不清

图像符号简洁,文本注记稀疏,传统模型难以捕捉深层结构语义

🎯

偏好动态变化

不同场景(旅游、通勤、应急)对应不同关注要素,需任务驱动的适应能力

Wemaps多模态数据集

178,073

用户-地图交互记录

8,499

用户数量

4,849

地图项目

4类

典型主题

四大主题分类

🏞️ 旅游(1,117张)

景区打卡、游玩路线

🚗 自驾游(967张)

驾车路线图、服务区分布

🍜 美食(1,272张)

美食地图、推荐店铺

🏫 校园(1,618张)

高校地图、建筑分布

SMWRec核心架构

1

主干网络:图神经网络(GNN)

采用LightGCN作为主干,构建ID、视觉、文本三类模态子图

• ID模态图:用户-地图基本交互行为

• 视觉模态图:ResNet提取的256维图像特征

• 文本模态图:词袋模型编码的128维语义嵌入

2

特征增强:模态无关的数据扰动

通过特征丢弃(FD)特征掩码(FM)增强鲁棒性

特征丢弃(FD)

随机丢弃部分特征维度,模拟信息缺失

特征掩码(FM)

将部分特征置零,增强对噪声的抵抗

3

模态对齐:Align-Before-Fuse(ABF)

在融合前构建图文语义空间的一致性约束

ITC

图文对比学习

ITM

图文匹配任务

MLM

掩蔽语言建模

三类自监督任务

Self-Supervised Contrastive Learning Tasks

ITC

图文对比学习

最大化同一地图的图像-文本对的相似度,最小化不同地图的图文相似度

ITM

图文匹配任务

二分类任务,判断给定的图像-文本对是否匹配,增强跨模态判别能力

MLM

掩蔽语言建模

随机掩盖文本中的词汇,通过上下文预测被掩盖的词,增强文本理解

实验结果与性能提升

在Wemaps数据集上的表现

Recall@10

+31.48%

相较最优基线的提升

NDCG@10

+33.86%

相较最优基线的提升

对比基线方法

VBPR

视觉贝叶斯个性化排序

LightGCN

轻量级图卷积网络

MMGCN

多模态图卷积网络

MMSSL

多模态自监督学习

CAMP

上下文感知多模态偏好

SLMRec

自监督多媒体推荐

SMWRec的核心优势

🎯

先对齐后融合

通过ABF策略确保模态在统一语义空间融合

🛡️

鲁棒性增强

FD和FM策略应对模态缺失和噪声

高效推理

推理时无额外延迟,自监督任务仅训练时启用

消融实验验证

ABF模块的作用

移除ABF后,Recall@10和NDCG@10显著下降,证明模态对齐是性能提升的关键

特征扰动的贡献

移除FD和FM后,模型在模态缺失场景下性能大幅下降

模态缺失压力测试

在图像缺失或文本截断情况下,SMWRec仍保持较高排序质量

典型应用场景

🏞️

旅游路线推荐

根据用户兴趣和地理位置,推荐个性化的景区打卡路线

🍜

美食地点推荐

基于用户口味偏好,推荐附近美食店铺和美食地图

🚗

自驾路径规划

推荐包含服务区分布的自驾游路线图

🏫

校园导航服务

为新生提供校园建筑分布和功能说明地图