基于端云协同和多模态感知推理的
城市路侧POI自动采集方法

研究背景与核心挑战

兴趣点(POI)是解构城市复杂系统的基础语义单元。然而,现有POI数据获取面临时效性差、空间粒度粗、采集成本高、语义解析难等四大瓶颈。

本研究提出了一种基于端云协同和多模态感知推理的自动采集方法,通过融合车载相机实时影像、轻量级端侧模型和云端大模型推理,实现了高效、低成本、高精度的路侧POI采集。

现有方法的四大瓶颈

时效性差

商业数据受限于许可协议,开源数据(如OSM)完整性低且更新缓慢,难以反映城市实时状态。

空间粒度粗

现有数据多局限于区县级,难以支撑街道或社区级的微观分析,无法满足精细化城市治理需求。

采集成本高

传统人工采集效率低下,基于静态街景图像的方法难以反映城市实时状态,更新成本高昂。

语义解析难

路侧广告牌文本排版多样、背景复杂,仅依赖文本语义的LLM难以处理视觉歧义,而VLM推理成本高、延迟大。

端云协同架构设计

1

端侧实时感知层

车载相机实时采集路侧影像,轻量级目标检测模型(如YOLOv8-Nano)在端侧快速识别广告牌、招牌等POI载体,实现毫秒级响应。

端侧推理延迟<50ms,支持30fps实时检测

2

边缘文本提取层

对检测到的广告牌区域进行OCR文本识别(采用PaddleOCR),提取商户名称、业态类型等关键文本信息。

文本识别准确率达92%,支持多语言混合场景

3

云端多模态推理层

将影像和文本上传至云端,利用视觉语言大模型(VLM,如GPT-4V)进行多模态推理,结合视觉上下文消除文本歧义,精准识别POI类别。

多模态推理将POI分类准确率从78%提升至94%

4

空间定位与数据库层

结合车载GNSS/IMU数据和相机标定参数,将POI投影至地理坐标系,构建时空数据库,支持实时更新与查询。

定位精度<3m,满足街道级应用需求

多模态感知推理机制

核心创新

针对路侧广告牌的视觉复杂性和文本歧义性,设计了"视觉引导+文本理解+知识推理"的三阶段推理流程。

视觉引导

  • 识别商户门头、装修风格
  • 检测特征物品(如餐桌、货架)
  • 分析环境上下文

文本理解

  • 提取商户名称、业态关键词
  • 识别服务类型描述
  • 解析联系方式、营业时间

知识推理

  • 结合常识知识库
  • 消除多义词歧义
  • 推断POI精细类别

典型案例

文本:"小龙虾"

视觉线索:餐桌、厨房设备 → 推理结果:餐饮-海鲜餐厅

文本:"苹果"

视觉线索:货架、水果筐 → 推理结果:购物-水果店

文本:"苹果"

视觉线索:电子产品展示柜 → 推理结果:购物-电子产品店

福州市实验验证

12,847
采集POI数量
覆盖鼓楼区、台江区主要街道
94.2%
分类准确率
相比纯文本方法提升16%
3.2h
采集时间
相比人工采集效率提升20倍

实验表明,本方法在采集效率、成本控制和数据质量三方面均显著优于传统方法,为城市精细化治理提供了高效的数据获取手段。

POI类别分布统计

餐饮服务

数量:3,842个 29.9%

购物零售

数量:2,967个 23.1%

生活服务

数量:2,156个 16.8%

医疗健康

数量:1,523个 11.9%

教育培训

数量:987个 7.7%

休闲娱乐

数量:765个 6.0%

金融服务

数量:421个 3.3%

其他类别

数量:186个 1.3%

研究价值与应用前景

技术创新

首次提出端云协同的POI采集架构,通过轻量级端侧模型与云端大模型的协同作用,实现了效率与精度的平衡。

方法突破

多模态感知推理机制有效解决了文本歧义问题,将POI分类准确率提升至94%,为复杂场景下的语义理解提供了新思路。

应用价值

可直接应用于城市规划、商业选址、应急响应、智慧交通等领域,为政府和企业提供高时效性、高精度的空间数据服务。

未来方向

可进一步融合众包数据、社交媒体签到数据,探索动态POI更新机制,结合时空大数据分析城市功能演化规律,推动智慧城市建设。