三阶段技术框架
Three-Stage Technical Framework
数据基底构建
Data Foundation
- 关键词法检索涉海企业
- 工商登记数据清洗降噪
- 地理编码获取空间坐标
- 建立地理空间数据库
行业类别识别
Industry Classification
- 4种NLP模型构建分类器
- 基于"经营范围"文本分类
- 软投票集成学习方式
- 输出企业行业标签
共聚指数测算
Co-Agglomeration Index
- 改进的推土机距离(EMD)
- 计算有向Wasserstein距离
- 蒙特卡罗模拟1000次
- 构造矢量性共聚指数
四种NLP模型对比
fastText(浅层网络)
核心思想
词袋模型进阶,加入n-gram特征和层次Softmax
优势
训练速度极快,工业应用性价比高
准确率
84.8%
TextCNN(卷积神经网络)
核心思想
使用卷积核提取文本局部特征(n-gram)
优势
局部特征提取能力强,简单有效
准确率
84.7%
BiLSTM(循环神经网络)
核心思想
双向循环网络捕捉长距离上下文依赖
优势
长序列依赖处理能力强,保留重要信息
准确率
92.1%
ERNIE(Transformer架构)
核心思想
基于Transformer,海量数据预训练捕捉深层语义
优势
最强语义理解能力,1.18亿参数
准确率
92.2% ⭐最优
海洋产业分类体系(8个行业部门)
A1 海洋渔业
海水养殖、海洋捕捞、远洋渔业
A2 海洋交通运输业
远洋运输、沿海运输、港口物流
A3 滨海旅游业
海滨观光、海洋主题公园、邮轮游艇
A4 海洋油气业
海洋石油、海洋天然气开采
B 海洋支持层
海洋船舶、海洋工程装备制造
C 海洋科研教育
海洋科学研究、海洋技术服务
D 海洋公共服务
海洋环境监测、海洋灾害预警
E 海洋外围层
涉海建筑、涉海批发零售
改进的推土机距离(EMD)方法
推土机距离(Earth Mover's Distance, EMD)也称为Wasserstein距离,是一种衡量两个概率分布之间差异的度量方法。本研究引入熵正则化约束项和Sinkhorn不动点迭代算法对其进行改进,用于测算两个海洋行业部门空间分布之间的有向距离。
熵正则化
通过引入熵正则化项,使得最优传输问题的求解更加稳定和高效,避免了传统线性规划方法的计算复杂度
Sinkhorn算法
采用不动点迭代算法快速求解最优传输矩阵,显著提升了计算效率,使得大规模数据的处理成为可能
有向距离
能够捕捉行业A向行业B集聚与行业B向行业A集聚的非对称性关系,揭示产业间的方向性依赖