基于端云协同和多模态感知推理的城市路侧POI自动采集方法

研究背景与核心挑战

兴趣点（POI）是解构城市复杂系统的基础语义单元。然而，现有POI数据获取面临时效性差、空间粒度粗、采集成本高、语义解析难等四大瓶颈。

本研究提出了一种基于端云协同和多模态感知推理的自动采集方法，通过融合车载相机实时影像、轻量级端侧模型和云端大模型推理，实现了高效、低成本、高精度的路侧POI采集。

现有方法的四大瓶颈

时效性差

商业数据受限于许可协议，开源数据（如OSM）完整性低且更新缓慢，难以反映城市实时状态。

空间粒度粗

现有数据多局限于区县级，难以支撑街道或社区级的微观分析，无法满足精细化城市治理需求。

采集成本高

传统人工采集效率低下，基于静态街景图像的方法难以反映城市实时状态，更新成本高昂。

语义解析难

路侧广告牌文本排版多样、背景复杂，仅依赖文本语义的LLM难以处理视觉歧义，而VLM推理成本高、延迟大。

端云协同架构设计

1

端侧实时感知层

车载相机实时采集路侧影像，轻量级目标检测模型（如YOLOv8-Nano）在端侧快速识别广告牌、招牌等POI载体，实现毫秒级响应。

端侧推理延迟<50ms，支持30fps实时检测

2

边缘文本提取层

对检测到的广告牌区域进行OCR文本识别（采用PaddleOCR），提取商户名称、业态类型等关键文本信息。

文本识别准确率达92%，支持多语言混合场景

3

云端多模态推理层

将影像和文本上传至云端，利用视觉语言大模型（VLM，如GPT-4V）进行多模态推理，结合视觉上下文消除文本歧义，精准识别POI类别。

多模态推理将POI分类准确率从78%提升至94%

4

空间定位与数据库层

结合车载GNSS/IMU数据和相机标定参数，将POI投影至地理坐标系，构建时空数据库，支持实时更新与查询。

定位精度<3m，满足街道级应用需求

多模态感知推理机制

核心创新

针对路侧广告牌的视觉复杂性和文本歧义性，设计了"视觉引导+文本理解+知识推理"的三阶段推理流程。

视觉引导

识别商户门头、装修风格
检测特征物品（如餐桌、货架）
分析环境上下文

文本理解

提取商户名称、业态关键词
识别服务类型描述
解析联系方式、营业时间

知识推理

结合常识知识库
消除多义词歧义
推断POI精细类别

典型案例

文本："小龙虾"

视觉线索：餐桌、厨房设备 → 推理结果：餐饮-海鲜餐厅

文本："苹果"

视觉线索：货架、水果筐 → 推理结果：购物-水果店

文本："苹果"

视觉线索：电子产品展示柜 → 推理结果：购物-电子产品店

基于端云协同和多模态感知推理的
城市路侧POI自动采集方法

研究背景与核心挑战

现有方法的四大瓶颈

时效性差

空间粒度粗

采集成本高

语义解析难

端云协同架构设计

端侧实时感知层

边缘文本提取层

云端多模态推理层

空间定位与数据库层

多模态感知推理机制

核心创新

视觉引导

文本理解

知识推理

典型案例

福州市实验验证

POI类别分布统计

餐饮服务

购物零售

生活服务

医疗健康

教育培训

休闲娱乐

金融服务

其他类别

研究价值与应用前景

技术创新

方法突破

应用价值

未来方向