基于推荐系统的适铁货物分析

doi:10.12677/OJTT.2021.105035

期刊菜单

基于推荐系统的适铁货物分析
Rail-Friendly Cargo Analysis Based on Recommendation System

DOI: 10.12677/OJTT.2021.105035, PDF, HTML, XML, 科研立项经费支持
作者: 姚竹, 王嘉伟, 甘蜜^*：西南交通大学，交通运输与物流学院，四川成都；综合交通大数据应用技术国家工程实验室，四川成都；孙逊：中铁第四勘察设计院集团有限公司，湖北武汉
关键词: 适铁货物；公转铁；匹配度；推荐算法；Rail-Friendly Cargo； Promoting Railway Instead of Road Transport； Match Degree； Recommendation System

摘要: 为贯彻落实国家铁路发展策略，积极响应国家“公转铁”政策，优化我国货物运输结构，本文开展了适铁货物的分析研究。首先，本文综合公路货物运输标准和铁路货物运输标准，梳理了44种与社会生产和人民生活关系密切相关的货物类型。然后利用货运平台海量的公路货运数据对公路货物运输特征进行挖掘，得到这44种货物类型的基本属性，为下一步模型的建立提供基本输入特征。在此基础上综合公路和铁路的运输特征构建了适铁货物推荐模型，计算每一种货物类型相对于公路和铁路运输的匹配度。最后以江西–福建为实际案例，得到了该研究对象之间适铁运输的推荐货类清单，为开辟铁路货运业务经营新的增长点提供科学指导。

Abstract: In order to implement the national railroad development strategy, actively respond to the National Transport Restructuring Policies and optimize the cargo transportation structure of China, this paper carries out the research of suitable railway cargo. First of all, this paper has sorted out 44 types of cargoes which are closely related to social production and people’s life by integrating the standards of road cargo transportation and railroad cargo transportation. Then the massive road freight data of freight platform is used to mine the characteristics of road freight transportation and get the basic attributes of these 44 cargo types, which provide the basic input characteristics for the next step of model building. On this basis, the cargo match degree model is constructed by integrating the transportation characteristics of road and railroads, and the match degree of each cargo type relative to road and rail transport is calculated. Finally, taking Jiangxi-Fujian as the actual case, a list of recommended cargo types suitable for railway transportation is obtained, which can provide scientific guidance for opening up new growth points for railroad freight business operation.

文章引用：姚竹, 王嘉伟, 孙逊, 甘蜜. 基于推荐系统的适铁货物分析[J]. 交通技术, 2021, 10(5): 301-312. https://doi.org/10.12677/OJTT.2021.105035

1. 引言

目前，我国正处于全面深化改革、推进经济转型发展的关键时期，铁路货改是铁路与时俱进、适应时代发展的关键举措。中国国家铁路集团有限公司在2020年工作会议中指出，要加强铁路优势项目产研合作，推动科技成果产业化运用并实现经营效益，拓展铁路客运服务产业链，发挥铁路局集团公司专业优势，整合铁路全产业链大数据资源，充分挖掘铁路大数据资源的市场价值。另一方面，中国市场公路货运占到了全国总货运量的70%以上，而其中作为铁路主要货物运输产品的煤炭、钢材等 [1]，以及部分运距大于1500 km的其他适铁货物运输产品，有很大一部分的货运量仍然依靠公路承担，这足以说明在公路货运产品中隐藏着大量可供集结的适铁货物。然而，因信息采集手段的缺乏、挖掘和分析技术的不足，导致这些碎片化的货物需求尚未被发掘，主要依靠散杂的公路运输方式，既不符合国家“公转铁”政策的思想，也抑制了中国货运市场效率的增长 [2]。因此，铁路货运亟需改变原有的“黑货”运输形象，努力承担更多货类的运输 [3]，调整原有的铁路货运结构 [4] [5]，在中国货运市场发挥应有的作用。

另一方面，随着大数据和人工智能算法的深入发展，关于推荐系统的研究正在大放异彩。刘振鹏将深度学习应用到推荐系统上，利用深度神经网络和卷积神经网络提取出用户和项目的隐性特征向量，再将特征向量经过改进的神经协同过滤得出推荐 [6]。未翠翠针对AvgSim算法、KHM聚类算法和关联规则FP-Growth算法进行改进，实现电影推荐功能 [7]。刘奕在音乐推荐上进行了研究，提出了基于内容语义的推荐模型—卷积循环神经网络推荐模型CRNN，该模型学习同一音轨文件不同段落之间联系的特征，统计出用户对于不同类型歌曲的偏好，进行音乐推荐 [8]。上述研究表明，推荐算法在针对海量信息中寻找匹配度较高的内容上具有很大优势，并且推荐算法的精度和准确性也在不断提升，但此前从未应用到货物运输推荐方面。

因此，本文将结合公路运输货物特性和铁路货运业务特点，基于推荐算法构建适铁运输货物特征模型，利用无监督聚类和有监督学习识别适合已有路网条件的适铁运输货物信息。对涵盖日常生活的44种货物种类进行分析，得到适铁运输的推荐货类清单，为我国“公转铁”行动的推进提供借鉴与参考，从而极大化的挖掘区域物流需求，提升铁路货运市场开发能力，促进物流业务的转型升级、积极推进物流业务智能化发展。

2. 确立研究对象

由于公路运输是承担我国货物运输业务的主体，是我国货物运输的主要方式，与铁路共同构成陆上货物运输基本方式。但是由于两种运输方式的货物分类方式各不相同，缺乏统一的分类标准，这对货物在两种运输方式之间进行有效转换造成了很大障碍。因此本文在针对公路运输货物分类进行研究的基础上，结合铁路现有的运输货物类型，对公路和铁路运输的货类分类表进行了对比分析。其中公路货物分类是参照我国现实行的公路货物分类行业标准《运输货物分类和代码》(JT/T19-2001)制定的，而铁路货物分类是参照《铁路货物运输品名检查表》制定的。

但由于上述分类标准中，I级分类过于宽泛，公路仅将所有的货物类型分成了17种大类，而铁路仅将所有的货物类型分成了26类大类，每一类中涵盖了纷繁复杂的货物种类，而II级分类中的品类又过于细化，不利于本文的研究。因此本文在已有分类的基础上，密切结合实际生活中的运输货类，综合考虑货物不同运输属性的情况下，结合两种运输方式的特点，提取两种运输方式中共通的货物类型，根据尽可能满足铁路运输的原则确立了本文主要的研究货类，将货物重新分类，得到了如表1所示的44种与社会生产和人民生活关系密切相关的货物类型。

Table 1. Reclassification of common cargo types for transportation

表1. 运输常见货物类型再分类

3. 运输特征分析

由于在实际运输中，不同品类的货物具有不同属性，将对运输服务条件产生影响 [9]。为了能够有针对性地遴选出适合铁路运输的货物类型，就需要对不同货物类型的运输特征进行分析和刻画。本文利用在线货运平台可获取数据字段结合国家统计年鉴的数据，对以上44种货物类型进行了运输特征分析。

3.1. 各个货类货运量构成

如图1所示，从各货物类型的货运量百分比情况来看，新鲜蔬菜、水果和饮料是我国货运的主要产品，占比超过全部货类货运量的66%。新鲜蔬菜、水果作为居民的日常消耗品，2019年全国居民人均消费达到245.2千克，占到主要食品消费量的35.87%，因此新鲜蔬菜、水果的需求巨大。而且各地区不同的地理环境使得优势种植产区分布广阔，再加上各地区的产业打造和政策引导，促使新鲜蔬菜、水果产品向优势产区集中，在全国范围内进行了频繁的输送。

而饮料作为一种品类多、满足消费者实施需求的功能性快消品，在现阶段进入了产业规模发展时期，行业竞争激烈，产品层出不穷，总产量呈一直保持着较高的水平。此外，饮料制品及其包装的质量也较大，导致饮料产品的货运量非常可观。

煤、普通工业机械及设备，以及土、砂、砖、瓦等能源、建筑材料货物的货运量占比均在4%左右，在居民非日常消耗品中位居前三。

3.2. 各个货类平均运输距离

如图2所示，我国各省市地理环境不同、油气资源分布不均。除了自产外，我国对进口石油和天然气资源的需求很大，几乎93%的进口原油通过海运运输到我国 [10]，再运送到需求地。因此石油和天然气在我国呈现长距离运输的特点。

棉花向优势产区新疆集中，2020年新疆棉花产量达到516.1万吨，占全国棉花产量的比重为87.3%。此外，新鲜蔬菜和水果、鲜活动物、交通运输设备等产品都形成了优势产区和地区品牌，因此这些品类的货物运往全国各省市的运输距离相较于水泥、仪器仪表和计量器具等尚未形成优势产区的货物更高。

金属制品、有色金属矿石、日用品、日用化工品等货类为平均运输距离在600~800 km之间的中长距离运输，一般都为跨省运输。而水泥制品的平均运输距离最短，为300 km左右的中短距离运输。

Figure 1. Percentage of freight volume by cargo category

图1. 各货类货运量百分比

Figure 2. Average transportation distance distribution by cargo category

图2. 各货类平均运输距离分布

Figure 3. Average shipping weight distribution by cargo category

图3. 各货类平均运输货物重量分布

3.3. 各个货类平均运输重量

从图3整体来看，44种货类的运输重量除了明显的几类货物的运输重量较大外，其他类型的货物其运输重量没有十分明显的差别。其中：焦炭、煤、石油和天然气及制品、铁矿石等货类作为需求量大的大宗货物，以及密度大的物理性质，其货物运输重量远大于其他类别。

4. 适铁货物推荐模型建立

4.1. 算法背景

4.1.1. FM模型

推荐系统有一个很大的问题在于数据的稀疏性问题，这个问题致使推荐算法的训练数据有限，导致模型的训练效果一般，从而不会让使用者得到理想的推荐结果。而FM模型能够解决大规模稀疏数据的特征组合问题。

一般线性模型的思想仅是将各个特征独立加权求和，但是这样忽略了特征与特征之间潜在的深层关系，忽略了用户的一些属性特征与商品身上的某些属性特征之间的潜在关联性。利用FM模型在线性回归模型的基础上加入了特征分量间的关联计算，以二阶多项式为例，如下是FM模型的表达式：

$y = w_{0} + \sum_{i = 1}^{n} w_{i} x_{i} + \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} w_{i j} x_{i} x_{j}$ (1)

其中 $w_{0}$ 表示常数偏置，而n表示样本的特征数量。

在数据稀疏这样的情况下， $x_{i}$ 或者 $x_{j}$ 等于0的可能性非常大，所以在训练过程中很难得到 $w_{i j}$ ，于是引入辅助向量 $v_{i} = (v_{i 1}, v_{i 2}, v_{i 3}, \dots, v_{i k})$ 来表示特征 $x_{i}$ ：

$V = (\begin{matrix} v_{11} & \dots & v_{1 k} \\ \dots & \dots & \dots \\ v_{n 1} & \dots & v_{n k} \end{matrix}) = (\begin{array}{l} v_{1} \\ \dots \\ v_{n} \end{array})$ (2)

利用 $v_{i} * v_{j}^{T}$ 来求解 $w_{i j}$ ：

$\hat{W} = V V^{T} = (\begin{array}{l} v_{1} \\ \dots \\ v_{n} \end{array}) (v_{1}^{T} \cdot v_{2}^{T} \dots \cdot v_{n}^{T})$ (3)

由此得到FM模型的二次项计算过程：

$\begin{matrix} \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} 〈 v_{i}, v_{j} 〉 x_{i} x_{j} = \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} 〈 v_{i}, v_{j} 〉 x_{i} x_{j} - \frac{1}{2} \sum_{i = 1}^{n} 〈 v_{i}, v_{j} 〉 x_{i} x_{j} \\ = \frac{1}{2} \sum_{j = 1}^{k} ({(\sum_{i = 1}^{n} v_{i j} x_{i})}^{2} - \sum_{i = 1}^{n} v_{i j}^{2} x_{i}^{2}) \end{matrix}$ (4)

这里的 $〈 v_{i}, v_{j} 〉$ 是向量内积的运算。

4.1.2. Deep FM模型

神经网络(DNN)和因子分解机(FM)组成了DeepFM模型。其中神经网络(DNN)负责对高阶特征进行提取；而因子分解机(FM)则是负责提取低阶特征。DeepFM是对FM模型的改进，由于FM模型的计算复杂度会随着组合特征阶数的升高而变大，所以一般只将组合特征提取到二阶就不再继续进行提取，高阶部分的特征则由深度对神经网络DNN进行训练，从而提取得到。所提取得到的特征结果作为这两部分共同的输入，Deep FM模型的预测结果可以写成：

$\hat{y} = sigmoid (y_{FM} + y_{DNN})$ (5)

4.1.3. DCN模型

DCN模型使由交叉网络(Cross Network)和一个深度神经网络(DNN)并行组成。这两部分共享同样的输入，并且将两部分的结果组合过后作为整个模型的输出层：

$y = sigmoid ([x_{L 1}^{T} h_{L 2}^{T}] W)$ (6)

DCN模型可以非常有效的提取有限度的特征来相互作用，学习高阶非线性特征进行相互关联。可以说DCN模型弥补了FM在浅层结构的限制问题，并且将参数共享机制从一层扩展到了多层。

4.2. 模型设计

本文选用的DCFM模型是一种融合了深度神经网络、深度交叉网络以及因子分解机的多特征的深度网络推荐模型，由DNN，Cross Network和FM三个部分并行组成，如图4所示。

该模型将货物运输特征、运输方式属性特征作为输入层的输入内容，经过one-hot编码处理后成为系数特征向量，然后在嵌入层进行向量内积计算，从而转变为稠密特征向量 $x_{i j}$ ，然后将其输入到由DNN、Cross Network和FM三部分并行组成的主体模型中。将输入特征经过处理过后，将各部分特征的权重经过线性加权，然后其结果作为输出特征，输出特征最后进行一层全连接并输入到激活函数中，最后得到模型的输出层结果。

Figure 4. DCFM model

图4. DCFM模型

4.2.1. 模型输入部分

DCFM模型在输入层首先将货物运输特征、运输方式属性特征以货物ID和货物对应的运输方式ID为联合主键拼接，生成商品和运输方式的匹配表达，将该结果作为输入特征。然后将经过全编码嵌入处理后的结果作为模型的输入，即对所有输入特征数据进行编码处理，再嵌入为稠密特征向量：

$x_{0} = [x_{embed, 1}^{T}, x_{embed, 2}^{T}, \dots, x_{embed, k}^{T}]$ (7)

输入处理过程如图5所示：

Figure 5. The procedures of input processing

图5. 输入处理过程

4.2.2. 模型主体部分

DNN、Cross Network和FM三部分构成了DCFM模型，其中FM模型的作用是提取输入数据的低阶特征；线训练集数据中的性交叉组合特征则使用Cross Network进行提取；DNN则是设计用来提取模型输入数据中的非线性高阶特征。值得一提的是，Cross Network交叉网络充分地考虑了各个特征之间的交叉作用，以及原始输入层数据在每一层和当前层数据的交叉作用 [11]。计算结构如图6所示：

Figure 6. The structure of cross network

图6. 交叉层结构

DNN是一个全连接的多层前馈神经网络，能够通过简单非线性处理单元的复合映射，从而获得复杂的非线性处理能力，其隐层的计算公式为：

$h_{i + 1} = f (w_{i} h_{i} + b_{i})$ (8)

4.2.3. 模型输出部分

DCFM模型的输出结果可以用如下公式表示：

$\hat{y} = sigmoid (a * y_{FM} + β * y_{Cross} + γ * y_{DNN})$ (9)

由各部分的输出层线性加权组合组成作为输出结果。

4.3. 实证研究

本文以江西–福建为案例研究对象，利用货运平台数据以及实地调研数据将两地的公路货运数据以及铁路货运数据输入后，得到两地公路货运特征以及铁路货运特征。然后通过上述模型分别将公路货运特征、铁路货运特征与前文研究得到的不同货物类型的运输特征进行推荐匹配，得到公路、铁路两种运输方式与不同货物类型的匹配度(匹配度值在0~1之间)。从而帮助判断某一货物在江西–福建地区之间适合公路运输还是铁路运输。推荐结果如下表2所示：

Table 2. The matching degree of road and railway cargo transportation

表2. 公路及铁路货物运输匹配度

从推荐结果分析得知，以江西–福建为研究对象的推荐结果中发现运输量较大，运距比较长且对时间敏感性不是很强的白货都具有很强的公转铁潜力。其中煤炭，铁矿石，有色金属矿石，钢铁，非金属矿石以及水泥这类传统的大宗货物与铁路运输的特性很契合，具有很高的匹配度；其次，土、砂、砖、瓦，木材，棉花，粮食，盐，金属制品，食品，饮料，仪器仪表、计量器具等货物与铁路运输也具有较高的匹配度；而对于运输条件要求比较高，且对时间敏感度较高的货物类型则相对公路运输的匹配度更高一些。

5. 结论

不同于以往的研究，本文构建了推荐模型，采用定量的方式，计算了不同货物类型与铁路运输方式的匹配度，得到了44种涵盖居民日常生活所需物品与铁路运输的匹配度。基于本文的研究表明，中国货运市场上存在着大量可被铁路满足的货物需求，如：符合人们认知的大宗货物类型：铁矿石，有色金属矿石，钢铁，非金属矿石以及水泥等与铁路运输方式就具有很高的匹配度；其次，还可以发现以前基本上都是由公路承担运输任务的货物类型：食品、饮料、金属制品等也比较适合采用铁路运输。由此可以发现铁路货运市场具有很大潜力，铁路运输相对于公路运输来说，更加节能环保，有利于我国“双碳目标”的实现，并且国家正在大力提倡公转铁，铁路有着良好的基础设施建设和政策支持。就目前条件而言结合本文研究结果表明，已经有大部分货物类型可以顺利实现公转铁，因此应该推动大宗货物的中长距离绿色运输，并且鼓励关键节点企业打造示范单位。而对于货物附加值较高且对时间敏感性高的货物类型，将来可以开行高铁货运专列覆盖这方面的货物类型，实现铁路货运“零排放”。

基金项目

中铁第四勘查设计院集团有限公司科技开发研究计划课题资助，规模以上企业适铁货物物流需求分析(2020K032)。

参考文献

NOTES

^*通讯作者。

参考文献

[1]	周新军. 中国铁路货运转型发展: 基于综合交通运输结构优化的视角[J]. 华北电力大学学报(社会科学版), 2019(2): 48-61.
[2]	李云汉. 关于推进我国货运结构调整政策探讨[J]. 铁道货运, 2018. 36(8): 1-5.
[3]	王永吉, 武鑫, 张满义, 程文毅. 新形势下实现铁路货运增量行动对策探讨[J]. 铁道货运, 2020, 38(6): 21-25+31.
[4]	吕科. 基于产业结构调整的铁路货物运输发展战略[J]. 上海商业, 2020(5): 54-56.
[5]	武中凯. 基于产业结构调整的铁路粮食运输经营策略[J]. 中国铁路, 2019(9): 55-58.
[6]	刘振鹏, 尹文召, 王文胜, 孙静薇. HRS-DC: 基于深度学习的混合推荐模型[J]. 计算机工程与应用, 2020, 56(14): 169-175.
[7]	未翠翠. 基于关联规则与用户兴趣模型的个性化云服务推荐算法[D]: [硕士学位论文]. 北京: 北京邮电大学, 2017.
[8]	刘奕. 基于音乐内容语义的推荐算法的研究与实现[D]: [硕士学位论文]. 北京: 北京邮电大学, 2018.
[9]	叶玉玲, 刘小亚. 基于市场细分的铁路货运产品设计策略[J]. 铁道货运, 2015, 33(2): 16-21.
[10]	王晗彬. 进口石油运输存在的问题与对策[J]. 石油石化物资采购, 2021(2): 21-22.
[11]	刘晶. 基于深度学习的协同过滤算法的研究[D]: [硕士学位论文]. 北京: 北京邮电大学, 2019.

为你推荐

友情链接