1. 引言
行为识别是指借助于计算机相关算法对视频中的人体行为动作进行特征提取、分析和处理,进而实现对行为动作的正确理解和识别 [1]。随着现代科技的发展,在智能家居、自动驾驶、视频监控等领域都需要用到行为识别技术 [2]。为了使识别系统表现优秀,在模型训练阶段需要使用大量的视频行为数据作为训练集,这将会耗费过多时间。同时,对大量的视频行为数据进行收集和标注也是一项繁重的任务 [3]。和视频不同的是,行为图像更易收集和标注,且已有很多公开图像数据集可以利用,例如Stanford40 [4] 和Still DB [5] 等,所以可以考虑借助图像提高视频行为识别性能,从而减少训练一个行为识别系统所需的视频数量,具有一定的实际应用价值。目前,已有大量研究证明,可以通过利用其他域的行为数据来提高目标域的行为识别性能 [6] [7] [8]。在本文跨域行为识别的研究中,图像为源域,视频为目标域。图像和视频之间有模态差异,所以直接将图像训练的行为识别模型来识别视频行为数据,会产生性能下降的问题 [9]。
虽然相同行为动作的视频和图像有显著模态差异,文献 [3] [10] 等证明了图像和视频具有行为动作的互补信息。并且,类别语义相关的图像和视频会表现出相似的外观、物体和姿势。所以利用好图像和视频间的相似互补性和语义关系,就可以借助图像来提高视频行为识别的性能。目前,在该领域,Yu等 [11] 提出基于分层生成对抗网络的图像到视频适配框架,利用低级条件生成对抗器和高级条件生成对抗器的两级对抗学习,能够学习到图像和视频的域不变特征表示。Li等 [12] 利用类判别空域注意力映射将视频帧映射到低维特征空间,设计Siamese EnergyNet结构,通过联合优化两个损失函数来学习注意力映射上的能量函数。Yu等 [13] 提出一种数据驱动的方法分别学习图像和视频的增强特征,构建对称生成对抗网络(Sym-GANs),其中一个生成对抗网络将图像帧特征映射到视频特征,另一个将视频特征映射到图像帧特征,使学习到的图像和视频的增强特征具有更好的可转换性和可区分性。然而以上方法均需要大量已标记的图像和视频数据,没有利用图像和视频之间的语义关系来融合图像和视频相关特征。Liu等 [14] 提出深度适配融合网络(DIVAFN)算法,解决了上述方法中需要大量标记视频样本的问题,并且利用图像和视频间的语义关系,取得了较为优秀的识别效果。但是该方法在学习了域不变特征之后使用语义自编码器 [15],并最终使用隐含层语义特征去训练分类器,这样使识别效果只取决于语义特征的判别能力。为了提高最终用于分类时特征的判别能力,更好结合利用语义特征和域不变特征中的有用信息,本文方法在学习到域不变特征后,通过自编码器对 [16] 中的两个双向映射,从域不变特征和语义特征中提取主要信息构造出对齐特征,既保留了图像和视频间的语义关系和域不变信息,并且与语义特征相比,对齐特征的判别性更强。
基于上述分析,为了在有限的训练样本条件下,通过利用图像提高视频行为识别性能,提出深度自编码器对网络算法(DDAEN)。该算法首先提取出视频的关键帧,作为将图像迁移到视频的中介;再根据图像、关键帧和视频的行为类别,定义出跨模态相似度矩阵和自模态相似度矩阵,并采用深度网络得到图像、关键帧和视频的域不变特征。然后将该三种域不变特征及类别语义特征作为三个自编码器对的输入,分别映射到各自的中间隐层,得到三个域的对齐特征。再将关键帧和视频的域不变特征组成融合域不变特征,并将其和类别语义特征输入到第四个自编码器对,得到融合对齐特征。最后,将关键帧对齐特征、视频对齐特征和融合对齐特征进行串联,训练SVM分类器 [17],实现视频行为的识别,使得在图像的辅助下视频行为识别性能可以显著提高。
2. 深度自编码器对网络算法
2.1. 整体框架概览
DDAEN算法流程如图1所示。由于视频是由多帧图像组成的帧集合,所以视频关键帧与视频具有高度相关性,同时关键帧本质是图像,可以将视频关键帧作为将图像知识迁移到视频的中介。考虑到计算效率,采用直方图作差法从视频中提取关键帧。为了减小各模态数据之间差异,得到各个模态的域不变特征,本文算法中域不变特征学习部分,采用内积作为相似度度量,并定义了跨模态相似度矩阵和自模态相似度矩阵,利用分别对应于图像、关键帧、视频三种模态的深度神经网络,来学习各模态的域不变特征。相同行为类别的图像和视频具有语义相关性,所以利用图像和视频的语义关系进行不同模态特征的融合。使用自编码器对结构 [16],构建以域不变特征和语义特征为输入的三个自编码器对,每个自编码器对中间隐层为各个模态的对齐特征。为了融合图像和视频特征,将关键帧域不变特征和视频域不变特征进行串联,组成融合域不变特征,与语义特征构建第四个自编码器对,进而得到融合对齐特征。最后,将关键帧和视频的对齐特征以及融合对齐特征进行串联,训练SVM分类器 [17],完成视频行为识别任务。
Figure 1. DDAEN algorithm flow chart
图1. 深度自编码器对网络算法流程图
2.2. 域不变特征学习
受跨模态检索方法中学习不同模态数据的公共空间特征的启发,DDAEN中域不变特征的学习借鉴两种跨模态检索方法DCMH [18] 和DSCMR [19] 各自优点。DCMH中采用内积作为不同模态数据相似度度量,比DSCMR中余弦相似度更加简单高效。DSCMR中同时考虑不同模态数据以及相同模态数据间的相似度关系,可以更好地减小模态差异,使得到的域不变特征判别能力更强。所以DDAEN采用内积作为不同模态数据的相似度度量,并定义跨模态相似度矩阵和自模态相似度矩阵来表示不同模态以及相同模态数据间的相似度关系。
需要利用神经网络学习域不变特征,DDAEN将DCMH中CNN-F 作为图像和关键帧模态的神经网络,文本网络作为视频模态的神经网络,对于网络的详细结构不再阐述。图像和关键帧的原始像素输入到网络,输出为图像和关键帧模态的域不变特征。行为视频的iDTs [20] 特征输入到网络中,输出视频模态的域不变特征。
具体而言,定义
、
和
表示图像、关键帧以及视频模态数据。
、
和
表示图像与视频、图像与关键帧、关键帧与视频之间的跨模态相似度矩阵,如果图像
和视频
属于相同行为类别,则
,否则
,
和
同理。
、
、
表示图像、关键帧、视频的自模态相似度矩阵,如果图像
与图像
属于相同类别,则
,否则
,
和
同理。域不变特征学习实质就是为了学到三个神经网络,
为图像模态,
为关键帧模态,
为视频模态,
、
和
是三个网络的可训练参数,
、
和
分别是三个神经网络输出的域不变特征。内积操作
是一种有效的成对相似度度量 [21],内积值越大说明两者相似度越高。
图像
和视频
对应的域不变特征
和
之间的相似度概率可以表示为如下似然函数:
(1)
其中,
,
。最大化似然函数(1),就可以使
和
之间的相似度度量(内积)在
时变大,在
时变小,即当图像
和视频
属于相同类别时,使
和
之间的内积变大;当图像
和视频
属于不同类别时,使
和
之间的内积变小。所以,最大化似然函数式(1)就可以使域不变特征
和
学习到
中的跨模态相似度。最大化似然函数等价于最小化负对数似然函数,图像域不变特征
和视频域不变特征
对于跨模态相似度矩阵
的负对数似然函数可以表示为:
(2)
和
对应于
的负对数似然函数、
和
对应于
的负对数似然函数、
对应于
的负对数似然函数、
对应于
的负对数似然函数以及
对应于
的负对数似然函数和式(2)相似,在此处不再单独列出。
最小化所有负对数似然函数,就可以得到学习了跨模态相似度信息和自模态相似度信息的域不变特征
、
、
。
2.3. 自编码器对结构的使用
自编码器对结构中有两个自编码器共用同一个中间层,其中一个自编码器是为了学习域不变特征空间与对齐特征空间之间的映射关系,另一个则学习语义特征空间与对齐特征空间之间映射关系。这种结构很好的结合两种输入端信息,使对齐空间中的特征判别性更强。
具体来说,将通过神经网络学习到的各个模态的域不变特征,作为自编码器对的一个输入,各模态行为数据对应的类别语义特征,作为自编码器对的另一个输入,则自编码器对中间隐层是由域不变特征和语义特征共同线性映射后得到的对齐特征。隐层的对齐特征可由域不变特征和语义特征共同映射得到,也可以投射回域不变特征空间和语义特征空间,所以既学习了域不变特征的结构信息,又把语义信息包含在内,是更富有信息且判别性更强的特征表示 。
为了更准确地表示各个类别的语义信息,使用word2vec特征 [22] 来表示行为类别。图像和视频同种行为类别的语义表示相同,所以在模型训练阶段
,Si、Sf和Sv分别对应图像、关键帧和视频模态的语义特征。为了简化公式,统一用
表示三种模态的语义特征。对于图像数据,将图像域不变特征
作为自编码器Auto-I1的输入,将类别语义特征
作为自编码器Auto-I2的输入,自编码器中间隐层为图像对齐特征
,Auto-I1和Auto-I2的结构如图2所示。图像模态的自编码器对目标函数可以用如下式子表示:
(3)
其中,
和
是Auto-I1的映射矩阵,
和
是Auto-I2的映射矩阵,
表示控制两个自编码器重要性的权重系数。
Figure 2. Structure of Auto-I1 and Auto-I2
图2. Auto-I1和Auto-I2结构
同理,关键帧模态的自编码器对Auto-F1和Auto-F2以及视频模态的自编码器对Auto-V1和Auto-V2的目标函数表示如下:
(4)
(5)
经过域不变特征的学习,关键帧域不变特征同时包含图像模态和视频模态的知识,所以可以将关键帧域不变特征作为融合图像和视频特征的中介。此处以一种简单而又直接的方式构建融合域不变特征
,是关键帧域不变特征和视频域不变特征的串联。将融合域不变特征
和行为类别的语义特征
作为输入,构造第四个自编码器对Auto-D1和Auto-D2,目标函数表示如下:
(6)
其中,
表示融合对齐特征,学习了图像、关键帧和视频三种模态的域不变特征内部结构以及行为类别的语义信息。
2.4. 目标函数的构建
将跨模态负对数似然函数和自模态负对数似然函数综合到一起,组成总的域不变特征学习项
。将以域不变特征为输入的自编码器综合到一起为
,以语义特征为输入的自编码器综合到一起为
。最终,
、
和
组合成目标函数
,可以看出深度网络的参数(
、
、
)以及所有自编码器的映射矩阵都能从目标函数
中学习到。
(7)
(8)
(9)
目标函数
对参数
、
、
和
、
等映射矩阵不同时收敛,对单独一个参数收敛,所以使用交替优化方法和随机梯度下降法对其中变量进行学习。在变量的学习完成后,将关键帧对齐特征、视频对齐特征以及融合对齐特征进行串联,去训练SVM分类器,实现视频行为识别的任务。
(10)
3. 实验结果与分析
3.1. 实验数据集
实验采用图像–视频跨域识别数据集:ASD→UCF101、Stanford40→UCF101。其中,图像数据集ASD、Stanford40为源域,视频数据集UCF101为目标域。
1) ASD→UCF101:行为图像数据集ASD (Actions from Still Datasets)有10类行为动作,其行为图像来自于图像数据集Still DB [5] 和Willow-Actions [23] 等。行为视频数据集UCF101 [24] 共有101个行为类别,从中挑出与ASD数据集相同的10类视频行为,构成图像–视频数据集ASD→UCF101。行为类别包括骑自行车、骑马、击球、掷板球、打网球、掷棒球、打排球、拉小提琴、拉大提琴和吹长笛。
2) Stanford40→UCF101:Stanford40 [4] 图像数据库共有40个行为类别,从Stanford40和UCF101中挑选出10个共同的行为类别,构成图像–视频数据集Stanford40→UCF101。行为类别包括射箭、扔飞盘、切菜、划船、刷牙、弹吉他、攀岩、拖地、写黑板和遛狗。
3.2. 实验设置
将训练样本比例设置为:10%,20%,30%,40%,50%,研究不同训练样本数量时本文方法的识别表现。利用在ImageNet数据库上预训练的CNN-F来初始化图像和视频关键帧卷积网络的前七层。所有实验均运行在六核3.20 GHz Intel i7 CPU,16 GB内存和NVIDIA GTX1080Ti GPU的Windows 10 64位操作系统上,编程环境为MatlabR2021b。
3.3. 行为识别结果
将本文方法DDAEN在两个数据集上进行实验,验证该方法的识别性能,结果如表1、表2所示。表中iDTs+SVM方法是指不借助行为图像,只使用视频去训练行为识别模型,此时直接将提取的视频iDTs [20] 特征来训练SVM分类器,然后用SVM分类器对测试集中的行为视频进行分类。同理,表中iDTs+fcn方法是将所提取视频特征去训练全连接神经网络,并利用训练完成的网络对测试集中行为视频进行分类。在iDTs+SVM实验中采用线性核函数,惩罚参数设置为100。iDTs+fcn实验中将视频特征输入到8192 * 8192 * 10的全连接神经网络,采用ReLu函数作为神经元的激励函数,计算交叉熵损失,利用反向传播更新网络权重。由表看出,在两个数据集的不同训练样本比例条件下,iDTs+SVM实验结果均优于iDTs+fcn,该结果说明,在小规模数据集上,SVM分类器的分类效果优于全连接神经网络,所以本文选择SVM分类器对最终的特征表示进行分类。将DDAEN与iDTs+SVM实验结果进行对比,可以判断DDAEN是否有效的通过利用图像提升视频行为识别的性能。表中的d为域不变特征的维度,是在设置对齐特征的维度l为默认值500,其余参数均为默认值1的情况下进行的实验。
Table 1. Average recognition accuracy on ASD→UCF101 dataset (%)
表1. ASD→UCF101数据集上的平均识别准确率(%)
Table 2. Average recognition accuracy on Stanford40→UCF101 dataset (%)
表2. Stanford40→UCF101数据集上的平均识别准确率(%)
从表1和表2可以看出,本文方法DDAEN在两个数据集上不同数量训练样本的情况下,均取得了优于iDTs+SVM方法的结果,说明DDAEN有效的减小图像和视频模态之间的差异,并融合利用图像和视频的互补信息,使得在图像的辅助下提高了视频行为识别性能,并且适用于视频训练样本有限的情况。由于iDTs+SVM方法没有从图像中迁移行为知识到视频,所以识别效果低于本文方法。
域不变特征的维度d增大,使图像、关键帧和视频的特征信息更加完整的表示,特征的判别性更强,识别效果也会随之提升,所以将域不变特征维度设置为4096。训练样本比例为10%时,测试样本数远大于训练样本,此时DDAEN的识别效果在两个数据集上,比iDTs+SVM方法相对提高了25.44%和20.82%,识别效果提升显著;训练样本比例为50%时,测试样本和训练样本数量相同,此时DDAEN识别结果比iDTs+SVM方法相对提高了15.74%和8.64%。所以DDAEN在视频训练样本较少的情况下,通过利用图像使视频行为识别率提升更加显著。这说明DDAEN适应于在视频训练样本较少的条件下进行行为识别,可以通过对行为图像的学习来减少行为识别模型在训练阶段所需的大量视频行为数据,实际应用中可以减小视频样本收集和标记工作所带来的人力成本的投入。
3.4. 模型简化分析
设计了三种新的算法,分别是简单特征融合法、域不变特征法和对齐特征法,验证域不变特征学习和对齐特征融合两部分对最终识别结果的有效性。
简单特征融合法(SFF, Simple Feature Fusion Method),该方法是将关键帧特征与视频特征进行简单的串联融合,用来验证图像和视频是否具有相似互补信息。关键帧直接输入到未利用相似度矩阵进行训练的关键帧网络中,将其输出作为关键帧的特征表示。对于视频则直接使用视频的iDTs特征。然后将关键帧特征和视频特征进行串联去训练SVM分类器实现视频的行为识别。
域不变特征法(DIF, Domain-Invariant Feature Method),该方法属于DDAEN中的域不变特征学习部分。将关键帧输入到使用相似度矩阵进行训练后的关键帧网络中,将视频输入到使用相似度矩阵训练后的视频网络中,神经网络的输出作为所对应模态的特征表示。在得到关键帧和视频的特征表示后,将两者进行串联去训练SVM分类器实现视频行为识别。
对齐特征法(AF, Aligned Feature Method),是DDAEN中对齐特征融合部分。该方法将关键帧输入到未经过相似度矩阵训练的关键帧网络中,输出作为关键帧的特征表示。视频则直接选择iDTs特征作为其特征表示。然后结合类别语义信息,构造三个自编码器对Auto-F1和Auto-F2、Auto-V1和Auto-V2以及Auto-D1和Auto-D2。将这三个自编码器对中间隐层的对齐特征进行串联后,训练SVM分类器完成视频行为识别。
实验结果如表3和表4所示。在两个数据集上,当标记样本比例为10%和20%时,简单特征融合法的识别效果低于iDTs+SVM方法,可见这种方法不适应于在标记样本较少的情况下进行识别;当训练集样本比例高于30%时,简单特征融合法的识别效果开始优于iDTs+SVM方法,主要原因是图像和视频所表示的行为动作存在相似互补性,但是这种直接串联方式带来的识别率提高很有限。域不变特征法在训练样本比例高于30%时,是三种简化方法中识别结果最优秀的,但是当训练样本较少时,识别结果一般,甚至低于iDTs+SVM方法,说明只有在标记样本充足时,域不变特征法才可以有效的减小图像和视频间模态差异。对齐特征法在不同训练样本比例下,识别表现均优于iDTs+SVM方法,在标记样本不足时仍可以提升识别效果,但是在标记样本比例高于30%时,识别表现略低于域不变特征法。本文方法DDAEN识别效果高于DIF和AF,所以DDAEN将域不变特征的学习和对齐特征的融合结合到一起,是结合了DIF和AF两种方法的优点,弥补了两种方法各自的不足,使识别性能达到了最佳效果。
Table 3. Model simplification analysis on ASD→UCF101 dataset (%)
表3. ASD→UCF101数据集上模型简化结果(%)
Table 4. Model simplification analysis on Stanford40→UCF101 dataset (%)
表4. Stanford40→UCF101数据集上模型简化结果(%)
3.5. 主流方法性能比较
将DDAEN与当前图像视频跨域行为识别领域算法DIVAFN [13],以及主流的域适配方法TCA [25]、CORAL [26]、MEDA [27] 和JGSA [28] 进行比较。TCA利用最大平均误差在一个再生核希尔伯特空间中学习源域和目标域的迁移特征,数据属性被保留,减小了不同域的数据分布距离。CORAL是一种简单、有效的无监督域适配方法,通过对源域和目标域分布的二阶统计量对齐,最小化不同域的分布差异。MEDA在结构风险最小化Grassmann流形中学习域不变分类器,同时进行动态分布对齐,定量说明了边缘分布和条件分布的相对重要性。JGSA在统计上和几何上减少域之间的差异,学习两个耦合投影,将源域和目标域数据映射到低维子空间中,同时减少几何位移和分布位移。由于域适配方法需要处理特征矩阵,所以将关键帧输入到未经过相似度矩阵训练的关键帧网络中,输出作为关键帧的特征表示,再利用域适配方法生成适配特征,将域适配后的特征进行串联去训练SVM分类器,实现对视频中行为的识别。
方法的对比在数据集ASD→UCF101和Stanford40→UCF101上进行,为了保证公平性,实验运行在相同的设备环境下,使用作者提供的代码。为了研究每个方法在不同训练样本比例下的识别表现,从数据集中随机取10%,20%,30%,40%,50%作为训练样本,实验结果如图3所示。可以看出,在两个数据集不同比例训练样本的情况下,DDAEN识别效果均是最优。训练集比例为10%时,此时测试样本数目远多于训练样本数,TCA、CORAL、JGSA以及MEDA的表现都低于iDTs+SVM方法,主要由于这些域适配方法无法适应训练样本较少的情况。当训练集样本比例上升时,四种域适配方法的表现开始高于iDTs+SVM方法。DDAEN与DIVAFN在两个数据集的任意比例训练样本情况下,识别表现都高于iDTs+SVM方法和域适配方法。训练样本为10%时,DDAEN比DIVAFN相对于iDTs+SVM方法提升了5.25%和2.24%。随着训练集比例的升高,DDAEN相对于DIVAFN的精度提升逐渐减小,训练集比例为50%时,DDAEN比DIVAFN相对于iDTs+SVM方法提高了1.94%和1.64%,是由于训练集比例增大时,iDTs+SVM方法识别效果也会提高,试图通过利用图像所带来识别精度的提升空间减小。
(a) ASD→UCF101(b) Stanford40→UCF101
Figure 3. Comparison of recognition accuracy (%) of different methods
图3. 不同方法识别性能(%)的比较
4. 结语
本文提出一种能够利用图像来提高视频行为识别性能的深度自编码器对网络算法。该算法包括域不变特征的学习和对齐特征的融合。为了减小各模态数据间差异,定义跨模态相似度矩阵和自模态相似度矩阵并借助神经网络,得到域不变特征。利用自编码器对提取域不变特征和语义特征的主要信息得到对齐特征,并将对齐特征进行串联融合来训练分类器,提高视频行为识别的性能。在两个图像–视频跨域识别数据集上进行实验,结果表明,在标记视频样本较少的情况下,DDAEN的识别效果比iDTs+SVM方法相对提高了25.44%和20.82%,优于主流的五种算法,提升效果显著,证明了方法的有效性。后续将进一步研究借助可见光图像来提高红外视频行为识别性能的方法,具有更大的研究意义。