基于GCN-Transformer的车辆换道行为建模与轨迹预测方法
A Vehicle Lane-Changing Behavior Modeling and Trajectory Prediction Method Based on GCN-Transformer
摘要: 对车辆换道行为建模并准确预测未来行驶轨迹对交通流的稳定与安全至关重要,为了解决目前大多数轨迹预测模型在同时捕捉车辆之间的空间相关性和时间依赖性上能力不足的问题,结合车辆轨迹的时空特点,本研究提出了一种基于长短期记忆网络、图卷积网络和Transformer编码器的改进建模策略。首先利用长短期记忆网络,对目标车辆和周围车辆在换道临界点前三秒内的状态信息分别进行轨迹编码,接着通过图卷积网络提取空间交互特征,然后通过Transformer编码器提取时间交互特征,最后将前三个模块处理后的特征向量合并后,输入至长短期记忆网络进行解码,得到目标车辆未来五秒的行驶路径预测输出。在NGSIM数据集和HighD数据集上进行实验,并与多种基准模型对比,结果表明:在2秒内的预测时域下,本文模型与PiP模型和DLM模型不差上下,但优于其他LSTM改进模型;在3~5秒内的预测时域下,本文模型优于各基准模型。本文还通过消融实验,证明了设计的时空特征提取模型对模型准确预测的有效贡献。
Abstract: Modeling vehicle lane change behavior and accurately predicting future driving trajectory is crucial for the stability and safety of traffic flow. In order to solve the problem that most current trajectory prediction models are insufficient in capturing the spatial correlation and time dependence between vehicles at the same time, combined with the spatio-temporal characteristics of vehicle trajectory, this study proposes an improved modeling strategy based on long short-term memory network, graph convolutional network and Transformer encoder. Firstly, the long short-term memory network is used to encode the state information of the target vehicle and the surrounding vehicles within three seconds before the lane change critical point. Then, the spatial interaction features are extracted through the graph convolution network, and then the time interaction features are extracted through the Transformer encoder. Finally, the feature vectors processed by the first three modules are merged and input into the long short-term memory network for decoding, and the driving path prediction output of the target vehicle in the next five seconds is obtained. Experiments are conducted on the NGSIM dataset and HighD dataset, and compared with a variety of benchmark models. The results show that: in the prediction time domain of 2 seconds, the proposed model is similar to the PiP model and DLM model, but better than other LSTM improvement models; in the prediction time domain of 3~5 seconds, the proposed model is superior to the benchmark models. This paper also demonstrates the effective contribution of the designed spatiotemporal feature extraction model to the accurate prediction of the model through ablation experiments.
文章引用:韩天立, 马驰, 胡林治. 基于GCN-Transformer的车辆换道行为建模与轨迹预测方法[J]. 建模与仿真, 2024, 13(3): 2754-2771. https://doi.org/10.12677/mos.2024.133250

1. 引言

2023年全国共发生175万起道路交通事故,而其中大部分事故的发生与不合适的换道意图和换道行为息息相关。因此,在当前自动驾驶汽车在交通系统中逐渐普及的趋势下,车辆换道轨迹预测问题作为自动驾驶领域的研究重点之一,需要投入更多时间和精力去解决,这对减少人为因素引发的交通事故,提升道路交通安全性至关重要。

车辆行驶轨迹是指在特定时间段内车辆在空间中的移动路径这一路径,可以通过一系列连续的位置坐标点来表示,通常包括车辆在每个时间点的经度、纬度以及其他高级信息。通过对车辆换道行为的建模和对车辆状态信息这类时序数据的分析,研究者可以揭示车辆运动的模式并预测未来的行驶趋势。目前车辆行驶轨迹预测模型大致可以被分成两大类,一类是基于物理模型和数学公式的传统模型,另一类则是基于车辆轨迹数据的学习式模型。

基于传统方法的车辆轨迹预测主要依赖于动力学或运动学模型的构建,通过牛顿运动定律来预测车辆的加速度和速度变化,或者从几何角度来拟合车辆的历史位置数据,以便对车辆在接下来一段时间内的移动路径进行估计。如Nelson等 [1] 是第一个利用极坐标多项式来拟合历史轨迹并做出预测。基于数学物理公式的轨迹预测模型的复杂程度理应与其预测效果成正相关。Wang等 [2] 使用五阶多项式更好地近似拟合NGSIM数据集中自主变道轨迹。但是,模型的复杂程度同时也和计算成本成正相关。并且Stéphanie等 [3] 认为基于物理模型轨迹预测方法无法取得较好的长期轨迹预测效果。此外,基于直推法 [4] 、卡尔曼滤波法 [5] 或蒙特卡罗法 [6] 的传统轨迹预测模型也只能在1秒到2秒的时域内取得理想的预测效果。于是一些学者选择与机动识别方法 [7] 、驾驶行为识别模块 [8] 相组合来提高性能,但是这些方法仍然存在一些对现实条件因素的简化假设,在面对车辆行驶轨迹的长期预测任务时有效性不足。总之,基于物理模型和数学公式的车辆行驶轨迹预测模型很难在当前的自动驾驶和和智能交通系统中有着良好的应用效果。

近年来,更多学者选择使用基于车辆轨迹数据的学习式模型,通过数据驱动方法更好地挖掘车辆历史行驶轨迹与各种参数之间的非线性关系,以及捕捉车辆驾驶行为的复杂性和多样性,从而准确预测未来一定长度的时域内车辆的行驶轨迹。不少学者开始使用贝叶斯网络 [9] 、k最近邻算法 [10] 、BP神经网络 [11] 等机器学习模型,经过一定数量的真实交通数据的训练之后,能够对车辆换道轨迹较为准确的预测。而现如今随着硬件性能的提升,大多数车辆换道轨迹预测模型都是基于深度学习方法的。Jeong等 [12] 率先将深度神经网络这类学习方法应用于车辆轨迹预测。又因为车辆行驶轨迹是在时间维度上具有较强的关联性,所以循环神经网络及其变体长短期记忆网络 [13] 和门控循环单元 [14] ,其在处理时间序列数据方面的优势被广泛应用于车辆轨迹预测。一些学者选择将LSTM与深度神经网络 [15] 、卷积神经网络 [16] 其他方法相组合,验证了在轨迹预测上比单一模型更为准确。还有一些学者给LSTM设计添加转向意图 [17] 、车辆与车道之间的几何关系 [18] 等不同的输入特征,以增强对不同交通场景的适应能力。针对长期时间序列预测任务,出现了大量基于Transformer的解决方案,在过去几年中取得了越来越多的成绩,在车辆行驶轨迹预测领域中也大放异彩。Quintanar等 [19] 使用多种公开数据集证明,Transformer模型可以有效解决城市场景下长达5秒的预测范围内的车辆轨迹预测问题Wang等 [20] 使用注意块来取代常用的图卷积网络,与Transformer模型结合来学习环境特征和机动特征,在保持精度的同时大大降低了时间成本。总之,在需要学习多车辆交互作用、捕捉长期依赖关系和实时预测的场景中,Transformer模型是完成车辆换道行驶建模和轨迹预测的一个有力工具。

综上所述,基于车辆轨迹数据的学习式模型能够较好的完成车辆换道轨迹预测任务,但在长期预测方面仍有继续改进的空间。当目标车辆在执行变道行为时,目标车辆与周围车辆之间的交互作用非常复杂,难以用传统数学公式或物理模型来准确量化表示和建模分析。此外当前大部分基于深度学习方法的轨迹预测模型在同时捕捉车辆之间的空间相关性和时间依赖性上不尽人意,对于车辆的交互关系处理和学习不够到位。针对高速公路场景下车辆换道轨迹预测问题,结合车辆行驶轨迹数据的时空特点,为了更好的提取数据中的局部和全局多维度关键特征、捕捉长期时序依赖关系以及模拟车辆之间复杂交互,本文提出基于长短期记忆网络(Long Short-Term Memory, LSTM)、图卷积网络(Graph Convolution Network, GCN)和Transformer编码器的混合模型,在两个公开车辆轨迹数据集上进行仿真实验,并与其他基准模型进行对比分析,最后通过消融实验验证本文设计的时间交互特征提取、空间交互特征提取模块的预测准确度贡献。

2. 数据集简介及预处理

2.1. 实验数据集简介

为了确保模型并非仅仅适应于特定的交通数据分布,提高本文所提出的模型在不同真实交通环境下的泛化能力,本文选择了NGSIM数据集和HighD数据集中部分数据作为基础数据。接下来本文将简要介绍这两个开源车辆轨迹数据集。

2.1.1. NGSIM (Next Generation Simulation)数据集

为了丰富基于实际道路场景的交通领域研究仿真数据,美国联邦公路管理局通过高空摄像头以10Hz的频率,拍摄收集了美国两段高速公路(US-101和I-80)和两个城市街区(Lankershim Boulevard和Peachtree Street)的实际车辆数据。NGSIM数据集的特点在于其详尽的车辆轨迹信息和多模态数据的融合,它以时间序列的形式呈现了车辆的位置、速度、加速度、车道编号、车头间距和车头时距等行驶信息和车辆长度、宽度等性能参数。NGSIM 数据集中关于数据类型的详细描述如下表1所示。

Table 1. A detailed description of the data types of the NGSIM dataset

表1. NGSIM数据集的数据类型详细描述

2.1.2. HighD数据集

HighD数据集是由德国亚琛工业大学汽车工程研究所发布的科隆附近六个不同地点的大型自然车辆高速公路行驶轨迹数据集,其中每段高速公路长度大约是400米或420米。该数据集利用先进的计算机视觉算法,通过无人机俯瞰采集记录了11.5小时内11万辆轿车和卡车的45,000千米总行程的行驶轨迹数据,定位误差通常小于十厘米。在标注车辆位置时,HighD数据集选用其路段俯视图左上角顶点作为其图像坐标系的坐标原点,而不是车辆的中心点,这种格式与后续发布的InD和RounD数据集在细节上有所区别。

2.2. 实验数据预处理

2.2.1. 数据筛选和剔除

首先NGSIM数据集中存在一些加速度过大、轨迹漂移重叠等异常情况,本文将该部分数据进行了剔除。另外,NGSIM数据集包含了摩托车、小汽车和大型车三类车辆的行驶轨迹,HighD数据集记录的行驶轨迹也涉及到小汽车和卡车两类车辆。两种数据集中不同种类的车辆数量极其不平衡,同时车辆种类的多样性导致了车辆性能指标上的显著差异,此外不同类型车辆的驾驶员也展现出各自独特的驾驶行为和风格。在这些因素共同作用下,各类车辆在车道变换过程中的行驶轨迹呈现出明显的差异性。鉴于本文旨在深入探讨小汽车的换道轨迹预测,因此,研究中排除了其他类别车辆的数据,仅选取了小汽车的相关行驶数据进行分析。

此外,本文模型是为了解决高速公路场景下车辆换道轨迹预测问题,所以本文只选用了NGSIM数据集中US-101这一段高速公路上的部分真实行车数据。采集行车信息的高空摄像头在US-101高速公路路段上可观测覆盖长度达2100英尺,包括一条高承载车道、四条普通高速车道、一条入口匝道和一条出口匝道。US-101路段结构如下图1所示。

Figure 1. Schematic diagram of US-101 road structure

图1. US-101路段结构示意图

2.2.2. 数据平滑处理

相较于高精度的High数据集,NGSIM数据集来源于高空摄像头的拍摄,这种采集手段固有的局限性可能会导致原始数据受到环境因素的干扰,并带来一定的测量偏差,特别是在横向运动信息的采集上。鉴于纵向和横向运动是车辆在地面行驶的两个主要方向,且横向运动正是本文研究重点车道变换行为的直接体现。因此为了确保收集到的轨迹数据的质量,并尽可能地减少这些偏差对实验结果的不利影响,从而提升对车辆换道轨迹预测的准确性和可靠性,本文采用了增强局部加权散点图平滑算法(RLOESS),对实验数据进行降噪处理,选择向左换道和向右换道各一辆车的行驶轨迹来展示平滑效果,如下图2所示。

Figure 2. Comparison of trajectories before and after filtering

图2. 滤波处理前后轨迹对比图

2.2.3. 归一化

因为不同数据类型在数值范围和度量单位上存在显著差异,为了降低这些差异对数据处理的影响,本文对序列中的所有数据进行了最小–最大归一化处理。这种标准化方法有助于深度学习模型在训练过程中更有效地学习,并且能够加速其收敛速度,减少计算成本。

3. 车辆行驶轨迹序列提取

在车辆换道轨迹预测模型中,输入数据除了考虑换道轨迹本身,保持直线行驶的轨迹信息同样重要。直行轨迹提供了与换道行为相对应的基准行为模式,通过比较直行和换道轨迹,模型可以更好地理解车辆在进行换道决策时的行为变化,从而更好地理解车辆在进行换道决策时的行为变化以及学习到更为复杂的驾驶行为模式,有助于提高预测未来行驶路径的准确性。所以本文首先需要分析车辆的历史行驶轨迹数据来识别其驾驶行为的类型,将其划分为向左变道、向右变道和保持直行三种类别,具体分类规则如下:

首先,逐帧读取同一车辆在某特定时间段内的车道编号信息,当某时刻该车辆的车道编号与后一帧的车道编号不一致时,则说明当前时刻该车辆正在跨越车道中心线从而变更车道,将该时刻记为换道临界点T2,将该车辆认定为预测目标车辆。同时为了统一NGSIM数据集和HighD数据集中坐标表示,本文将T2时刻的车辆所在位置作为后续预测结果图示中的坐标系原点。根据车道编号按照内侧车道往外侧车道变化的方向依次增大的命名规则可知,当车道编号减小时则说明该车辆在向左变道,而当车道编号增大时则说明该车辆在向右变道。此外,本文将在8秒内车辆的车道编号未发生变更的行驶轨迹序列视为一个包含输入和输出的保持直行的完整行驶轨迹序列。

然后,再将换道临界点T2之前相隔3秒的时刻认定为换道起始点T1,将换道起始点T1到换道临界点T2的车辆行驶轨迹信息作为一个完整的时序数据输入。再以该车辆在换道临界点T2的位置为中心,画一个长度为180英尺,宽度为两个车道宽度的矩形,在该矩形范围内的车辆都纳入考虑范围,然后再从目标车辆的左前方、正前方、右前方、左后方、正后方和右后方六个方位选取与目标车辆相隔最近的车辆,当某个方位出现空缺时,以一个理想车辆作为代替,将这些车辆均视为周围车辆分别编号

为1、2、……、6。那么此时本模型的输入 就已经确定,具体如下公式(1)和公式(2)所示,模型输入包括目标车辆(编号为0)和六辆周围车辆的状态信息,其中有目标车辆和周围车辆的横纵坐标 ( x i ( t ) , y i ( t ) ) 和横、纵向速度 ( v x i ( t ) , v y i ( t ) )

X ( t ) = { X 0 ( t ) , X 1 ( t ) , X 2 ( t ) , X 3 ( t ) , X 4 ( t ) , X 5 ( t ) , X 6 ( t ) } (1)

X i ( t ) = { x i ( t ) , y i ( t ) , v x i ( t ) , v y i ( t ) } (2)

最后,再将换道临界点T2时刻之后相隔5秒的时刻认定为换道终止点T3,将换道临界点T2到换道终止点T3的车辆行驶轨迹信息作为一个完整的时序数据输出。即本文以换道临界点T2前三秒内目标车辆和周围车辆的状态信息为模型输入,目标车辆换道临界点T2后五秒内的行驶路径为模型预测输出。以车辆向左换道为例,换道行驶轨迹序列提取过程如下图3所示。

Figure 3. Lane change trajectory sequence extraction diagram

图3. 换道行驶轨迹序列提取示意图

又鉴于在轨迹数据中,直线行驶的实例远超过换道行驶,特别是向左换道样本数量较少,所以本文采取了欠采样策略以维持数据集的均衡性,从而防止模型过度拟合于直线行驶轨迹或向右换道行驶轨迹。具体而言,对直线行驶和向右换道的轨迹样本实例进行了适当的减少,使得这两类轨迹的样本数量与向左换道的轨迹样本数量相匹配。所以,为了提高模型对向左换道这一类行驶轨迹预测的准确性,同时在一定程度上减少了训练数据的规模,加快模型的训练速度,本文通过这种方法从三种不同的驾驶行为中均匀地抽取了3724条车辆行驶轨迹段,总计构成了14,896条数据样本集。

4. 车辆换道轨迹预测模型

4.1. 长短期记忆网络(Long Short-Term Memory, LSTM)

为了解决循环神经网络(Recurrent Neural Network, RNN)处理长期时序数据能力不足的问题,Hochreiter等 [21] 对RNN结构做了一定改进,添加了输入门、遗忘门和输出门三个门控结构,来控制对新信息的敏感程度和对旧信息的遗忘程度,这种设计可以避免信息在大跨度序列中反向传播时梯度的消失或爆炸,从而保证节点参数的收敛性。本文选用LSTM网络单元对预测目标车辆和周围车辆进行轨迹编码处理。LSTM网络单元门控机制具体如下图4所示。

Figure 4. Schematic diagram of LSTM gating mechanism

图4. LSTM网络单元门控机制示意图

图4(a)所示,时间序列数据输入首先进入遗忘门,确定需要丢弃和保留的状态信息。t时刻的遗忘门值 f t 的计算过程如下公式(3)所示:

f t = σ ( W X f X t + W h f h t 1 + b f ) (3)

其中 X t 为当前时刻的输入, h t 1 为前一时刻的输出, W X f W h f b f 分别表示需要学习的两个权重矩阵和一个偏置项,后续算式中 W * b * 表示意义也与之相同。sigmoid激活函数表达式如下公式(4)所示:

σ ( z ) = 1 1 + e z (4)

σ ( z ) 的值域为[0, 1],它表示了遗忘门丢弃数据的程度,用于改善模型的非线性。

同时如图4(b)所示,该过程描述的是输入门指定存储哪些信息,并为后续状态更新构造候选向量。t时刻的输入门值 i t 的计算过程如下公式(5)所示,候选向量 c ˜ t 的计算过程如下公式(6)所示:

i t = σ ( W X i X t + W h i h t 1 + b i ) (5)

c ˜ t = tanh ( W X c X t + W h c h t 1 + b c ) (6)

其中,tanh是双曲正切函数。

然后进行细胞状态更新后,如图4(c)所示的过程可以表示为如下公式(7):

c t = f t c t 1 + i t c ˜ t (7)

其中 表示向量之间的元素积,该操作实现了将上一时刻的细胞状态信息 c t 1 的遗忘和候选细胞状态信息 c ˜ t 的添加,从而得到当前时刻的细胞状态信息 c t ,LSTM内部细胞状态信息以这种线性循环的方式进行传递。由于遗忘门值 f t 和输入门值 i t 并非是一成不变的,所以每个时刻的细胞状态更新程度也会随之改变。

图4(d)所示,输出门决定最终输出哪些信息,最终输出 h t 由通过函数 tanh ( c t ) 计算而得的一个范围处于[−1, 1]的值和t时刻的输出门值 o t 的元素积得到。输出门值 o t 的计算过程如下公式(8)所示,输出 h t 的计算过程如下公式(9)所示:

o t = σ ( W X o X t + W h o h t 1 + b o ) (8)

h t = o t tanh ( c t ) (9)

4.2. 图卷积网络(Graph Convolution Network, GCN)

在轨迹编码中记录了在目标车辆和周围车辆中,每一辆车在目标车辆变道临界点前3秒内的任一历史时刻的位置,但是由于其经过了具有门控机制的LSTM网络处理后,车辆之间的相互依赖性可能会有所降低。因此本文构建图卷积网络,进一步利用和分析轨迹编码,如图5所示。在图卷积网络中每一个节点都有一辆车相对应,并且节点存储了该辆车在先前时间点的状态信息,而边则代表着两辆车之间的相互作用。由于在现实世界中任意一辆车并非是独立的,其行驶状态或多或少的都会受到同一实际交通场景下的其他车辆的影响。所以本文假设所有车辆之间均存在连接,即网络中的每对相邻车辆都是通过边相互关联的。

在图数据处理领域中,有一种核心技术是利用图傅里叶变换在频域内进行操作,这种方法被称为谱域图卷积。类似于卷积神经网络(CNN)在空间域内处理数据的方式,谱域图卷积允许在图的频域内执行卷积操作,从而有效地捕捉图结构的特征。在构建图卷积网络(GCN)模型时,采用谱域图卷积来表示车辆的空间位置信息,计算过程如下公式(10)所示:

y = θ g x = σ ( j = 0 K j L j x ) (10)

上式中 θ 为卷积和, g 为谱域图卷积, x 为车辆状态信息输入, σ 为非线性激活函数, K 为图卷积核的大小, j 为卷积核参数, L 为用于构建图的归一化拉普拉斯矩阵。

然后由于图卷积网络不仅捕捉了每辆车的历史行驶轨迹,而且还能体现它们在空间上的动态相互作用。本文再利用图卷积网络(GCN)来捕捉车辆在不规则空间中的局部依赖性。以顶点i为例,如图6所示,图中描绘了一阶邻域的卷积计算过程。在这个过程中,顶点i与其六个邻近顶点之间的空间相互作用可以通过单次卷积操作得到。通过遍历图中的每个节点并执行卷积操作,即可提取出该时刻所有车辆的空间特征。

Figure 5. Vehicle position information of graph structure

图5. 图结构的车辆位置信息

Figure 6. Schematic diagram of graph convolution

图6. 图卷积示意图

4.3. Transformer编码器

近年来基于自注意力和多头注意力机制的Transformer架构在处理长序列数据、执行并行计算以及捕获全局依赖关系方面展现出卓越的性能 [22] 。这种模型架构的核心优势在于其强大的能力来识别序列中各元素间的复杂关系,并且能够克服传统循环神经网络(如LSTM和RNN)在处理长序列时遇到的梯度相关问题。这些特点使得Transformer模型能够细致地分析目标车辆与其他车辆之间的动态交互,并且能够追踪和整合车辆在较长时间跨度内的行为信息。所以本文选择决定采用Transformer模型的编码层来深入探索车辆换道行为中的时间动态特征。Transformer模型的编码器由多个相同的层级联叠构建而成,每一层都包含了一系列精心设计的子模块,具体结构如下图7所示。这些子模块包括多头自注意力机制、前馈神经网络、残差连接以及层归一化。其中作为编码器核心组件的多头自注意力机制是实现对长序列中元素间复杂依赖关系的有效捕捉的关键技术,它通过并行地执行多个注意力函数来关注输入序列不同方面的信息。

在多头自注意力机制中,输入序列的每个元素都会被转换成三个不同的向量:查询(Query)、键(Key)和值(Value),这些向量具有相同的维度 d K 。通过计算查询与所有键之间的点积,然后将结果除以键的维

Figure 7. Schematic diagram of Transformer encoding layer

图7.Transfomer模型编码层示意图

d K 的算术平方根,可以防止点积结果过大,接着应用 softmax 函数来获取每个值的权重。这一过程可以表示为公式(11):

Attention ( Q , K , V ) = softmax ( Q K T d K ) V (11)

多头自注意力机制的关键在于,它将查询、键和值的向量在参数空间中进行多次分割,每一组分割都独立地计算注意力权重。这样每一层可以同时关注输入序列中的多个不同位置,从而捕捉更丰富的上下文信息。在多头自注意力的每个头部中,模型都能够聚焦于输入序列的不同特征,通过这种方式,模型能够并行地从序列中提取多样化的信息。其计算过程如下公式(12)和公式(13)所示:

MultiHead ( Q , K , V ) = C oncat ( head 1 , , head n ) W O (12)

head k = Attention ( Q W k Q , K W k K , V W k V ) (13)

4.4. LSTM-GCN-Transformer换道轨迹预测模型

针对高速公路场景下车辆换道轨迹预测问题,结合车辆行驶轨迹数据的时空特点,为了更好的提取预测目标车辆和周围车辆历史行驶轨迹序列中的局部和全局多维度关键特征、捕捉长期时序依赖关系以及模拟车辆之间复杂交互,本文提出基于长短期记忆网络(Long Short-Term Memory, LSTM)、图卷积网络(Graph Convolution Network, GCN)和Transformer的组合模型,具体结构如下图8所示。

Figure 8. Schematic diagram of trajectory prediction model based on LSTM-GCN-Transformer

图8. 基于LSTM-GCN-Transformer轨迹预测模型示意图

本文选择将目标车辆和周围车辆的横纵坐标和横纵向速度等状态信息作为模型时间序列输入,将目标车辆在未来时域内的行驶位置分布作为模型输出。从输入到输出的过程大致可以分为编码、提取空间交互特征、提取时间交互特征和解码四个部分。

第一段过程是原始轨迹数据在编码过程中转换成为了高级特征表示,具体如下:自车轨迹和邻车轨迹分别经过一个全连接层,将历史状态信息映射到一个新特征空间,通过学习权重矩阵来提取有用的换道特征,为后续的序列建模奠定良好基础。然后应用ReLU激活函数,对全连接层的输出进行非线性转换,增加模型的非线性表达能力,同时有助于缓解在训练过程中的梯度消失问题。再然后利用嵌入层中LSTM模型对自车轨迹和邻车轨迹分开进行编码处理,LSTM层通过其特有的门控机制能够捕捉行驶轨迹序列数据中的长期依赖关系,并将这些信息编码到一个固定大小的特征向量中。该特征向量即为自车轨迹和邻车轨迹的编码表示,它捕捉了车辆历史轨迹的关键信息,包括车辆的运动模式和与其他车辆的交互行为,为后续的预测任务提供了丰富的上下文信息。

第二段过程是在提取空间交互特征过程中捕捉目标车辆与周围车辆之间的空间关系,具体如下:首先,模型将自车轨迹和邻车轨迹的编码表示进行拼接,合并形成一个扩展的特征向量,从而为模型提供了一个全面的交互视角。接着,扩展的特征向量被送入图卷积网络。图卷积网络是一种专门设计用于处理图结构数据的神经网络,它能够在节点的特征信息和图的拓扑结构之间建立联系。通过GCN,模型能够学习到车辆之间的空间邻近性以及它们在交通流中的相互作用。再通过ReLU激活函数进一步增强非线性表达能力,而应用Dropout正则化则是在训练过程中随机丢弃一部分神经元的输出,减少了模型对特定训练样本的依赖,从而提高了模型的泛化能力和防止过拟合。然后经过Dropout处理的特征向量再次通过一个GCN层。此步骤进一步提炼和强化了车辆之间的空间交互特征,使得模型能够更精确地捕捉交通环境中的复杂关系。最终,经过二次GCN处理的特征向量被用作表示车辆空间交互特征的向量,该向量捕捉了车辆及其邻近车辆在空间上的相互作用和影响。

第三段过程则是为了捕捉车辆行为随时间演变的动态特性,具体如下:将上一步提取的空间交互特征经过线性变换后作为Transformer解码器的输入,先通过注意力机制计算不同时间步之间的注意力权重,这些权重反映了在预测未来行驶路径时每个历史时间步行驶轨迹的重要性。注意力机制使得模型能够动态地关注于对当前预测最有价值的历史信息。然后经过注意力加权后的特征通过前馈网络层,残差连接和层归一化处理后,进一步提炼时间序列中的交互特征。最终,Transformer编码器输出被用作表示时间交互特征的向量。该向量学习了车辆行为随时间变化的模式,不仅包括加速减速等纵向驾驶行为的周期性变化,还包括转向变道等横向驾驶行为的历史趋势。

最后一个过程就是整合和利用车辆的空间交互、时间交互以及历史行为信息,并生成准确的目标车辆未来5秒内的行驶轨迹预测,具体如下:将经CNN提取局部特征的后历史轨迹编码、空间交互特征和时间交互特征进行拼接,合并得到一个综合了车辆的空间关系、时间演变和历史行为模式的特征向量,为解码过程提供了全面的上下文信息。再将该丰富的特征向量经过两次全连接层和LSTM层处理,这种层叠结构有助于进一步提炼和强化时空特征,使得模型能够更精确地捕捉车辆换道行为的时空动态和长期依赖关系,最终输出一个包含车辆在未来特定时间步所处位置的时间序列信息。

5. 仿真实验及分析

5.1. 实验环境

本文在基于Python3.7、PyTorch 1.7的软件环境上完成了所提出的车辆行驶轨迹预测模型的构建与训练,并在基于NVIDIA GeForce RTX 4060图形处理单元(GPU)、英特尔第14代酷睿i9-14900HX处理器和32G内存的硬件环境上进行了对比实验和消融实验。

5.2. 模型参数设置

本文模型选用采用自适应矩估计(Adaptive Moment Estimation, Adam)优化器,初始学习率为0.0005,数据加载的工作线程为16,LSTM编码器大小为64,注意力机制中的头数为4,轨迹线性层的隐藏单元数为32,批处理大小为256,Dropout率为0.1,ReLU激活函数的负斜率为0.1,训练轮数为9,损失函数为均方误差损失函数。此外本文选取采样率为5 Hz,由于模型通过换道前3 s的历史轨迹数据来预测未来5 s内的车辆行驶轨迹,故输入序列长度为15。输出序列的长度为25。数据集通过分层抽样并按照7:1:2的比例划分训练集、验证集和测试集。

5.3. 评价标准

为了量化预测模型的准确度,本文选取了均方根误差(Root Mean Square Error, RMSE)作为主要的评价指标。RMSE衡量了在给定预测时间范围内,模型预测出的轨迹位置与实际观测到的轨迹位置之间的平均欧几里得距离(Mean Euclidean Distance, MED)。该指标通过计算预测误差的平方和的平均值,再取其平方根得到,能够综合反映模型在轨迹预测任务上的整体准确性。具体而言,RMSE的计算过程如下公式(14)所示:

R M S E = 1 N i = 1 N j = 1 L o u t ( C ^ j i C j i ) 2 (14)

其中, N 为样本总数, L o u t 代表预测轨迹输出序列的长度, C ^ j i 代表模型预测第i辆车在第j个时间步长的预测位置坐标, C j i 代表第i辆车在第j个时间步长的实际位置坐标。

从定义计算可知,RMSE的值越接近零,意味着模型的预测结果与真实情况越吻合,预测偏差越小,从而表明模型具有更高的预测精度。在车辆行驶轨迹预测的应用场景中,RMSE是一个直观且广泛接受的评估标准。它不仅能够揭示模型在单个预测点上的误差水平,还能够通过平均处理反映出模型在整个预测时间段内的稳定性和可靠性。因此,RMSE可以作为研究人员比较不同模型的性能的一个有效工具,还可以指导预测模型的进一步优化和改进。

5.4. 对比实验

为了评估模型预测准确度,本文将所提出的LSTM-GCN-Transformer轨迹预测模型与多个基准模型进行对比实验,其中包括S-LSTM模型 [23] 、CS-LSTM模型 [24] 、NLS-LSTM模型 [25] 、S-GAN模型 [26] 、PiP模型 [27] 以及DLM模型 [28] 。各模型在NGSIM数据集上不同预测时域条件下的评价指标结果如表2图9所示。

Table 2. Table of evaluation indicators for various models based on the NGSIM dataset

表2. 基于NGSIM数据集的各模型评价指标结果表

Figure 9. Line chart of evaluation indicators for various models based on the NGSIM dataset

图9. 基于NGSIM数据集的各模型评价指标结果折线图

为了避免模型可能存在某些特定场景或条件下的局限性,进一步公平且全面地评估不同模型的预测表现,本文还选择了HighD数据集来进行对比试验。各模型在HighD数据集上不同预测时域条件下的评价指标结果如表3图10所示。

Table 3. Table of evaluation indicators for various models based on the HighD dataset

表3. 基于HighD数据集的各模型评价指标结果表

Figure 10. Line chart of evaluation indicators for various models based on the HighD dataset

图10. 基于HighD数据集的各模型评价指标结果折线图

从NGSIM数据集和HighD数据集上的整体结果来看,各模型随着预测时域长度的增加,评价指标RMSE值也在变大,这说明各模型在面对车辆换道轨迹预测任务时,预测性能表现优劣程度与预测时域长度大小呈正相关关系,也就是说各模型在短期预测上的准确度明显优于长期预测。这是因为随着预测时域的延长,车辆未来行驶状态的不确定性也在增加。车辆的行驶轨迹受到周围车辆行为、自身驾驶员意图等多因素影响,模型在模拟和处理这些因素的复杂相互作用时,难免有一定的误差,再经过时域上的累积后,这些误差就会进一步放大,所以准确预测车辆长期行驶轨迹显得尤为困难。另外NGSIM数据集上的RMSE值高于HighD数据集,这一方面可能和二者数据集的规模大小不一致有关,HighD数据集包含的车辆数量大约是NGSIM的12倍,另一方面则也可能和二者数据质量的不一致有关,HighD数据集的定位误差明显低于NGSIM数据集,HighD数据集采集记录的高精度车辆行驶轨迹数据更贴合车辆在真实交通场景下的驾驶行为。

再将本文模型与其他模型相对比,可以看到本文模型在3~5 s内的中长期预测时域下,在两种数据集中的评价指标RMSE值均明显小于其他模型。以5 s长的预测时域为例,相较于表现最差的S-LSTM模型,本文模型的RMSE值在两种数据集上分别减小了19.12%、43.70%;在NGSIM数据集上相较于表现次好的DLM模型,本文模型的RMSE值减小了4.91%;在HighD数据集上相较于表现次好的PiP模型,本文模型的RMSE值减小了27.00%。这说明本文模型中所设计的轨迹编码、时空特征提取模块能够更有效地提取和学习车辆换道轨迹序列中的局部和全局多维度关键特征,显著提高了模型捕捉长期时序依赖关系以及模拟车辆之间复杂交互作用的能力。而在1 s长的预测时域下本文模型在NGSIM数据集中表现与DLM模型持平,在HighD数据集中表现与PiP模型一致。在2 s长的预测时域下本文模型在NGSIM数据集中表现略微逊色于DLM模型。总而言之,在短期预测时域下本文模型性能表现与PiP模型和DLM模型不差上下,但优于其他模型。这是因为考虑自我车辆多种候选轨迹的PiP模型和使用车道占用率和风险地图的DLM模型同本文模型一样,也能够从历史行驶轨迹数据中准确地捕捉短期驾驶行为的关键特征,如车辆的瞬时速度和方向变化。此外在两种不同的数据集上本文模型均能取得较低的RMSE值,表明本文模型具有良好的泛化能力,能够适应不同的交通环境和数据分布,具有一定的实际应用价值。

5.5. 消融实验

为了进一步验证本文模型中所设计的空间交互特征提取模块和时间交互特征提取模块的有效性,本小节对本文所提出的LSTM-GCN-Transformer轨迹预测模型进行消融实验,结果如表4所示。

Table 4. Results table of ablation experiment

表4. 消融实验结果表

由上表可知,消融实验的结果揭示了LSTM-GCN-Transformer轨迹预测模型中的空间交互特征提取模块和时间交互特征提取模块对预测精度的重要贡献。当从本文模型中移除空间交互特征提取模块(两层GCN)后所得到的简化模型,相较于原始模型RMSE值大约平均提升了5.11%。这一结果强调了空间交互特征提取模块在提升模型预测精度中的关键作用。当从本文模型中移除时间交互特征提取模块(Transformer编码器)后所得到的简化模型,相较于原始模型RMSE值大约平均提升了9.36%。这一发现指出,时间交互特征对于准确的轨迹预测至关重要,尤其是在进行长期预测时,这种交互作用的影响更为显著。

综合上述消融实验的结果,可以得出结论,本文模型中的每个模块都对提高整体预测性能起到了积极作用。提炼历史轨迹信息对于捕获车辆换道过程中的规律性至关重要,它增强了模型对动态交通情景的解析能力。同时,考虑到车辆之间在空间上的相互作用,模型对交通流的复杂性有了更深刻的洞察。此外,对时间序列的依赖性分析确保了模型在预测随时间变化的车辆轨迹方面的精确性。这些见解为模型的进一步发展和精化提供了宝贵的参考。

6. 结论

本文提出了一种基于GCN-Transformer的车辆轨迹预测模型,分别利用LSTM、GCN和Transformer编码器设计为轨迹编码、提取空间交互特征和提取时间交互特征的三个模块,将预测目标车辆和周围车辆在换道临界点前3秒内的行驶轨迹信息经上述三个模块依次处理,再将每个模块所得的特征向量进行拼接合并,之后再将该丰富特征向量输入到LSTM模型,通过解码得到最终模型对目标车辆未来5秒内行驶路径的预测输出。采用经过筛选、剔除和平滑处理后的NGSIM数据集和HighD数据集进行实验,并与多种基线模型进行对比分析,对比结果显示本文模型在1~2 s短期预测上准确度与PiP模型和DLM模型不差上下,但优于其他LSTM改进模型;而在3~5 s长期预测上具有高准确度,评价指标RMSE值均明显小于其他基线模型,尤其是在HighD数据集上5 s预测时域长度时RMSE值低至1.92。同时本文模型在两种不同的数据集上本文模型均能取得较低的RMSE值,即表明其具有良好的泛化能力,能够适应不同的交通环境和数据分布。最后通过移除空间交互特征、时间交互特征提取模块,发现简化模型相较于原始模型RMSE值分别平均提升了5.11%、9.36%,此结果证明提取空间交互特征和提取时间交互特征的两个模块的引入对提高整体预测性能有着重要贡献。

参考文献

[1] Nelson, W.L. (1989) Continuous-Curvature Paths for Autonomous Vehicles. Proceedings, 1989 International Conference on Robotics and Automation, Scottsdale, 14-19 May 1989, 1260-1264.
[2] Wang, Q., Li, Z. and Li, L. (2014) Investigation of Discretionary Lane-Change Characteristics Using Next-Generation Simulation Data Sets. Journal of Intelligent Transportation Systems, 18, 246-253.
https://doi.org/10.1080/15472450.2013.810994
[3] Stéphanie, L., Dizan, V. and Christian, L. (2014) A Survey on Motion Prediction and Risk Assessment for Intelligent Vehicles. ROBOMECH Journal, 1, Article No. 1.
https://doi.org/10.1186/s40648-014-0001-z
[4] Brannstrom, M., Coelingh, E. and Sjoberg, J. (2010) Model-Based Threat Assessment for Avoiding Arbitrary Vehicle Collisions. IEEE Transactions on Intelligent Transportation Systems, 11, 658-669.
https://doi.org/10.1109/TITS.2010.2048314
[5] Ammoun, S. and Nashashibi, F. (2009) Real Time Trajectory Prediction for Collision Risk Estimation between Vehicles. 2009 IEEE 5th International Conference on Intelligent Computer Communication and Processing, Cluj-Napoca, 27-29 August 2009, 417-422.
https://doi.org/10.1109/ICCP.2009.5284727
[6] Tran, Q. and Firl, J. (2014) Online Maneuver Recognition and Multimodal Trajectory Prediction for Intersection Assistance Using Non-Parametric Regression. IEEE Intelligent Vehicles Symposium Proceedings, Dearborn, 8-11 June 2014, 918-923.
https://doi.org/10.1109/IVS.2014.6856480
[7] Houenou, A., Bonnifait, P., Cherfaoui, V., et al. (2013) Vehicle Trajectory Prediction Based on Motion Model and Maneuver Recognition. IEEE/RSJ International Conference on Intelligent Robots & Systems, Tokyo, 3-7 November 2013, 4363-4369.
https://doi.org/10.1109/IROS.2013.6696982
[8] Peng, L., Wu, C., Zhen, H., et al. (2014) Novel Vehicle Motion Model Considering Driver Behavior for Trajectory Prediction and Driving Risk Detection. Transportation Research Record Journal of the Transportation Research Board, 2434, 123-134.
https://doi.org/10.3141/2434-15
[9] Schreier, M., Willert, V. and Adamy, J. (2014) Bayesian, Maneuver-Based, Long-Term Trajectory Prediction and Criticality Assessment for Driver Assistance Systems. 17th International IEEE Conference on Intelligent Transportation Systems (ITSC), Qingdao, 8-11 October 2014, 334-341.
https://doi.org/10.1109/ITSC.2014.6957713
[10] Wen, Y., Zhao, H., Bonnifait, P., et al. (2013) Lane Change Trajectory Prediction by Using Recorded Human Driving Data. 2013 IEEE Intelligent Vehicles Symposium (IV), Gold Coast City, 23 June 2013, 430-436.
[11] Ding, C., Wang, W., Xiao, W., et al. (2013) A Neural Network Model for Driver’s Lane-Changing Trajectory Prediction in Urban Traffic Flow. Mathematical Problems in Engineering, 2013, Article ID: 967358.
https://doi.org/10.1155/2013/967358
[12] Jeong, D., Baek, M. and Lee, S.S. (2017) Long-Term Prediction of Vehicle Trajectory Based on a Deep Neural Network. International Conference on Information and Communication Technology Convergence, Jeju, 18-20 October 2017, 725-727.
https://doi.org/10.1109/ICTC.2017.8190764
[13] Ping, H., Wenqing, W., Qingyan, S. and Jun, Y. (2019) Real-Time Short-Term Trajectory Prediction Based on GRU Neural Network. 2019 IEEE/AIAA 38th Digital Avionics Systems Conference, San Diego, 8-12 September 2019, 1-8.
[14] Seong, H.P., Byeong, D.K., Chang, M.K., et al. (2018) Sequence-to-Sequence Prediction of Vehicle Trajectory via LSTM Encoder-Decoder Architecture. 2018 IEEE Intelligent Vehicles Symposium, Changshu, 26-30 June 2018, 1672-1678.
[15] Shirazi, M.S. and Morris, B.T. (2019) Trajectory Prediction of Vehicles Turning at Intersections Using Deep Neural Networks. Machine Vision and Applications, 30, 1097-1109.
https://doi.org/10.1007/s00138-019-01040-w
[16] Zhang, P., Yang, T., Liu, Y.N., et al. (2019) QAR Data Feature Extraction and Prediction Based on CNN-LSTM. Application Research of Computers, 36, 2958-2961.
[17] Zhang, T., Song, W., Fu, M., et al. (2021) Vehicle Motion Prediction at Intersections Based on the Turning Intention and Prior Trajectories Model. IEEE/CAA Journal of Automatica Sinica, 11, 21-33.
https://doi.org/10.1109/JAS.2021.1003952
[18] Kawasaki, A. and Seki, A. (2020) Multimodal Trajectory Predictions for Urban Environments Using Geometric Relationships between a Vehicle and Lanes. 2020 IEEE International Conference on Robotics and Automation (ICRA), Paris, 31 May-31 August 2020, 9203-9209.
https://doi.org/10.1109/ICRA40945.2020.9196738
[19] Quintanar, A., Fernández-Llorca, D., Parra, I., et al. (2021) Predicting Vehicles Trajectories in Urban Scenarios with Transformer Networks and Augmented Information. 2021 IEEE Intelligent Vehicles Symposium (IV), Nagoya, 11-17 July 2021, 1051-1056.
https://doi.org/10.1109/IV48863.2021.9575242
[20] Wang, Z., Guo, J., Hu, Z., et al. (2023) Lane Transformer: A High-Efficiency Trajectory Prediction Model. IEEE Open Journal of Intelligent Transportation Systems, 4, 2-13.
https://doi.org/10.1109/OJITS.2023.3233952
[21] Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780.
https://doi.org/10.1162/neco.1997.9.8.1735
[22] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[23] Alahi, A., Goel, K., Ramanathan, V., et al. (2016) Social LSTM: Human Trajectory Prediction in Crowded Spaces. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 27-30 June 2016, 961-971.
https://doi.org/10.1109/CVPR.2016.110
[24] Deo, N. and Trivedi, M.M. (2018) Convolutional Social Pooling for Vehicle Trajectory Prediction. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, 18-22 June 2018, 1468-1476.
https://doi.org/10.1109/CVPRW.2018.00196
[25] Messaoud, K., Yahiaoui, I., Verroust-Blondet, A., et al. (2019) Non-Local Social Pooling for Vehicle Trajectory Prediction. 2019 IEEE Intelligent Vehicles Symposium (IV), Paris, 9-12 June 2019, 975-980.
https://doi.org/10.1109/IVS.2019.8813829
[26] Gupta, A., Johnson, J., Fei-Fei, L., et al. (2018) Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 2255-2264.
https://doi.org/10.1109/CVPR.2018.00240
[27] Song, H., Ding, W., Chen, Y., et al. (2020) Pip: Planning-Informed Trajectory Prediction for Autonomous Driving. Computer Vision-ECCV 2020: 16th European Conference, Glasgow, 23-28 August 2020, 598-614.
https://doi.org/10.1007/978-3-030-58589-1_36
[28] Khakzar, M., Rakotonirainy, A., Bond, A., et al. (2020) A Dual Learning Model for Vehicle Trajectory Prediction. IEEE Access, 8, 21897-21908.
https://doi.org/10.1109/ACCESS.2020.2968618