研究背景与核心挑战
兴趣点(POI)是解构城市复杂系统的基础语义单元。然而,现有POI数据获取面临时效性差、空间粒度粗、采集成本高、语义解析难等四大瓶颈。
本研究提出了一种基于端云协同和多模态感知推理的自动采集方法,通过融合车载相机实时影像、轻量级端侧模型和云端大模型推理,实现了高效、低成本、高精度的路侧POI采集。
现有方法的四大瓶颈
时效性差
商业数据受限于许可协议,开源数据(如OSM)完整性低且更新缓慢,难以反映城市实时状态。
空间粒度粗
现有数据多局限于区县级,难以支撑街道或社区级的微观分析,无法满足精细化城市治理需求。
采集成本高
传统人工采集效率低下,基于静态街景图像的方法难以反映城市实时状态,更新成本高昂。
语义解析难
路侧广告牌文本排版多样、背景复杂,仅依赖文本语义的LLM难以处理视觉歧义,而VLM推理成本高、延迟大。
端云协同架构设计
端侧实时感知层
车载相机实时采集路侧影像,轻量级目标检测模型(如YOLOv8-Nano)在端侧快速识别广告牌、招牌等POI载体,实现毫秒级响应。
端侧推理延迟<50ms,支持30fps实时检测
边缘文本提取层
对检测到的广告牌区域进行OCR文本识别(采用PaddleOCR),提取商户名称、业态类型等关键文本信息。
文本识别准确率达92%,支持多语言混合场景
云端多模态推理层
将影像和文本上传至云端,利用视觉语言大模型(VLM,如GPT-4V)进行多模态推理,结合视觉上下文消除文本歧义,精准识别POI类别。
多模态推理将POI分类准确率从78%提升至94%
空间定位与数据库层
结合车载GNSS/IMU数据和相机标定参数,将POI投影至地理坐标系,构建时空数据库,支持实时更新与查询。
定位精度<3m,满足街道级应用需求
多模态感知推理机制
核心创新
针对路侧广告牌的视觉复杂性和文本歧义性,设计了"视觉引导+文本理解+知识推理"的三阶段推理流程。
视觉引导
- 识别商户门头、装修风格
- 检测特征物品(如餐桌、货架)
- 分析环境上下文
文本理解
- 提取商户名称、业态关键词
- 识别服务类型描述
- 解析联系方式、营业时间
知识推理
- 结合常识知识库
- 消除多义词歧义
- 推断POI精细类别
典型案例
文本:"小龙虾"
视觉线索:餐桌、厨房设备 → 推理结果:餐饮-海鲜餐厅
文本:"苹果"
视觉线索:货架、水果筐 → 推理结果:购物-水果店
文本:"苹果"
视觉线索:电子产品展示柜 → 推理结果:购物-电子产品店