基于改进StyleGAN的高分辨率可控肖像视频风格迁移网络
High Resolution Controllable Portrait Video Style Transfer Network Based on Improved StyleGAN
DOI: 10.12677/mos.2024.134415, PDF, HTML, XML, 下载: 3  浏览: 7 
作者: 钱洋洋:上海理工大学光电信息与计算机工程学院,上海
关键词: StyleGAN肖像风格迁移视频风格迁移时间一致性建模StyleGAN Portrait Style Transfer Video Style Transfer Temporal Consistency
摘要: 肖像风格迁移是计算机视觉和图形学的一个重要领域。然而,当前很多肖像风格迁移算法在很大程度上未能捕捉到不同肖像风格的重要几何依赖。因为肖像风格迁移需要更注重特征的细化和风格的融合。与此同时,数据的稀缺性也是风格化的挑战之一,同时面向图像的方法在应用于视频时也会存在闪烁伪影等缺陷。针对肖像风格迁移,本文提出了基于改进StyleGAN的高分辨率可控肖像视频风格迁移算法HcpGAN (style transfer network for High-resolution Controllable Portrait video based on StyleGAN)。具体来说,HcpGAN由生成器和鉴别器组成,生成器采用内外双支路风格路径网络结构进行肖像风格迁移,分层式网络结构可以对风格程度进行可控与微调,通过扩张卷积对生成器第一层特征模块进行微调,解除了肖像输入固定裁剪限制。与此同时,在生成器的尾部集成处理视频帧的特征扭曲层,不使用额外的网络和光流预测,通过引入特征扭曲层直接对视频帧的时间一致性信息进行建模,从而输出时间序列平滑的风格化视频。在公开数据集上对比试验和消融实验显示,HcpGAN在当前肖像风格迁移算法中处于先进水平。
Abstract: Portrait style transfer is an important field in computer vision and graphics. However, many current algorithms largely fail to capture the important geometric dependencies of different portrait styles. Because the transfer of portrait style needs to pay more attention to the refinement of features and the fusion of styles. At the same time, the scarcity of data is also one of the challenges of stylization, and image style transfer methods also have defects such as flicker artifacts when applied to video. For the transfer of portrait style, this paper proposed a High-resolution Controllable Portrait video style transfer network based on StyleGAN (HcpGAN). Specifically, HcpGAN consists of a generator and discriminator. The generator adopts an internal and external double-branch style path network structure to carry out portrait style migration. The hierarchical network structure can control and fine-tune the style degree, and fine-tune the first-layer feature module of the generator by expanding convolution, which eliminates the restriction of fixed portrait input clipping. At the same time, the feature distortion layer of the video frame is integrated in the tail of the generator, and the temporal consistency of the video frames is directly modeled by introducing the feature distortion layer without using additional network and optical flow prediction, so as to output the time series smooth stylized video. Comparison and ablation experiments on open datasets show that HcpGAN is at an advanced level in the current portrait style transfer.
文章引用:钱洋洋. 基于改进StyleGAN的高分辨率可控肖像视频风格迁移网络[J]. 建模与仿真, 2024, 13(4): 4577-4590. https://doi.org/10.12677/mos.2024.134415

1. 引言

肖像风格迁移是计算机视觉和图形学的一个重要领域。肖像风格化是指输入一张内容肖像图和一张风格肖像图,将输入图像的样式转换成相对应风格肖像的样式的过程。在转换过程中,尽可能保留原始输入肖像图像的细节特征,同时模仿风格肖像图的颜色、线条和纹理,例如肖像动漫风格化、卡通风格化、漫画风格化、皮克斯风格化、迪士尼风格化等等。

受CNN的影响,Gatys等人[1]开创了神经风格迁移方法,该方法提出了一种基于优化的方法,通过在卷积层中匹配特征统计,可以将给定风格转移到图像中。随后,一些以肖像风格迁移为任务的算法也取得了显著的效果。Selim等人[2]提出了一种方法通过局部转移示例绘制头像的颜色分布以生成新的头像肖像,然而这种方法与纹理合成密切相关,无法处理几何变换。随着生成对抗网络(GAN) [3]的快速发展,图像到图像的翻译方法[4] [5]被引入到风格迁移领域。随后,Chen等人[6]提出了AnimeGAN2方法,该方法通过生成合成的人脸卡通对来提取现有的风格迁移模型。CariGAN [7]解决了一个弱监督任务,其中配对的人脸和漫画具有相同的身份,但没有像素级对应。为了支持非配对数据,Zhu等人[8]提出了一种循环一致性损失方法CycleGAN,用无监督的方式来处理条件图像生成。Kim等人[9]提出U-GAT-IT算法,将注意力模块和可学习的动画归一化函数用于卡通人脸生成。AniGAN [10]利用共享层在鉴别器中提取两个领域的共同特征。GNR [11]则分别学习有效的内容特征和风格特征,将它们分为在数据增强过程中未改变的特征和改变的特征。

虽然上述算法可以有一定的成效,但是这些网络需要大量的训练数据,因此只针对相对较低分辨率图像进行训练。然而StyleGAN [12]模型能够生成逼真的人脸图像,并提供分层风格控制,是肖像风格化的强大支柱。Toonify [13]在卡通数据集上对预训练的StyleGAN进行微调,并将微调模型的浅层与原始模型的深层相结合。AgileGAN模型[14]提出了一种反转一致迁移学习生成高质量风格肖像的框架,引入了新的分层变分自编码器,以确保逆映射分布符合原始的隐高斯分布。DCT-Net模型[15]通过采用“先校准,后翻译”的核心思想,更容易学习稳定的跨域翻译,并产生高保真的结果。DualStyleGAN [16]用外在风格路径扩展了StyleGAN,以接受来自风格图像的条件,进行基于范例的风格迁移。Gal等人提出将StyleGAN转移到由CLIP [17]引导的新艺术领域,不使用任何真实的卡通数据集,实现文本驱动卡通化。虽然上述算法都显示了高质量的结果,但在应用于视频时存在明显的局限性,例如固定的帧大小、面部对齐要求和时间不一致等等。近年来,StyleGAN除了在图像编辑方面表现突出,在视频编辑方面也得到了广泛的关注。Fox等人[18]将视频帧投影到StyleGAN潜在代码序列中,并训练网络从这些低维代码中获取时间相关性。Yao等人[19]训练了一个潜在的转换网络,该网络将身份和面部属性分离开,以便更好地保留身份。STIT算法[20]建议调整StyleGAN以提供空间一致的过渡。上述方法都需要进行人脸对齐和裁剪预处理,通过这样一个复杂的过程产生的结果很容易产生伪影。

根据以上问题,本文提出了基于StyleGAN的高分辨率可控肖像视频风格迁移网络(HcpGAN)来自动生成指定艺术风格的肖像。所提出的HcpGAN模型基于StyleGAN微调,该方法只需要几百张的参考风格样式样本,风格模块可以从参考风格样本中解耦艺术风格特征,如阴影色调、颜色、纹理特征,将艺术风格特征转移到需要的结果上,从而提高生成人像的艺术性。本文所提出的贡献可以总结如下:

(1) HcpGAN针对“固定裁剪限制”问题,提出了一种简单而有效的解决方案,即在不改变任何模型参数的情况下,使用扩张卷积来重新缩放StyleGAN中浅层的接受域。与此同时,提出了一种新的去风格化算法,对风格迁移进行有效监督,从而能够实现在实验数据较少的情况下实现高质量肖像风格迁移。

(2) HcpGAN复用了DualStyleGAN [16]的内外双支路风格迁移网络结构,通过内在样式路径来控制原始域的样式,同时增加了外在样式路径来建模和控制目标风格域的样式。外部样式路径继承了StyleGAN的层次结构,在粗分辨率层中调节结构样式,在精细分辨率层中调节颜色样式,实现灵活的多级样式操作。

(3) 受检测任务中使用特征扭曲的启发,为了保证视频到视频风格传输的时间一致性,本文提出了一种新的特征扭曲层,将特征扭曲层集成到生成器网络中,进一步简化了复杂的视频风格迁移架构。

(4) 大量的实验证明,HcpGAN能够在相关公开数据集上实现最优的风格化肖像效果。

2. 模型方法

2.1. HcpGAN网络结构

HcpGAN的整体网络结构如图1所示,它主要由四个部分组成:内在风格路径、外在风格路径、生成器和鉴别器。编码器E建立于pSp编码器[21]的基础上,对于W空间,原始pSp编码器以256 × 256的图像作为输入,并将其卷积为18个1 × 1 × 512的特征向量,以映射到潜在编码 W 18×512 。为了使得E能够接受更通用尺寸的H × W图像,在编码器中添加全局平均池化层,在映射到潜在代码之前将所有特征调整为1 × 1 × 512。为了对外部风格进行采样,添加了一个采样网络N,将单位噪声z映射到优化的外部风格潜码,N能够将前7层和后11层特征潜在编码很好地解耦,将这两部分开处理,即结构潜码和颜色潜码从N中独立采用并级联形成完整的风格潜码。

Figure 1. Network structure diagram of HcpGAN

1. HcpGAN的网络结构图

生成器的内在风格路径和生成器网络的在整体上继承标准StyleGAN。内在风格路径接收输入:正态分布随机采样的高斯噪声 z 1×512 (表示噪声向量z是一个512维的实数向量)和编码后的内容肖像潜在向量 z + 。内容图像潜在向量 z + 和噪声向量z共同组成了内在风格编码。随后经过StyleGAN的映射网络(Mapping Network)生成潜在空间向量Wc,分层( w 1 ,, w 18 共18层)输入生成器网络中的仿射变换模块A。外在风格路径接收2种输入,即风格图像去风格化后的 z e + 以及经过N采样网络采样的高斯噪声z z e + 作为外在风格代码以捕捉头发颜色和面部形状等有意义的语义线索。风格迁移的过程总的来说就是给定一张内容肖像图像I和一张艺术肖像图像S,风格迁移通过 G( E( I ),E( S ),θ ) 实现,其中 θ 18 表示两条路径灵活风格组合的权向量,默认为1。最后,在生成器的尾部集成处理视频帧的特征扭曲层,不使用额外的网络和光流预测,通过引入特征扭曲层直接对视频帧的时间一致性信息进行建模,从而输出时间序列平滑的风格化视频。

StyleGAN提供了一个分层的风格控件,分为精细分辨率层和粗分辨率层。精细分辨率层用来建模低级颜色样式,粗分辨率层用来建模高级形状样式。在精细分辨率层(即8-18层)中,外部风格路径采用与StyleGAN相同的结构,即 z e + 经过一个映射网络f得到Ws风格潜码,随后经过颜色变换块Tc、仿射变换块A,将得到的风格偏差、内容语义偏差以及权重 θ 融合到AdaIN中。如图2所示,在粗分辨率层(1-7)中,使用调制残差模块来调整结构样式。调制残差块中包含一个残差块来模拟风格微调过程中卷积层的变化以及一个AdaIN模块来模拟风格样式条件。

2.2. 基于StyleGAN的高分辨率可控风格生成器

2.2.1. 解除固定裁剪限制

固定裁剪限制问题是人脸风格迁移方面一个重要的问题。限制问题源于StyleGAN恒定的第一层特性,首先,第一层特征具有4 × 4的固定分配率,将输出限制为1024 × 1024分辨率,其次,4 × 4分辨率不足以表征空间信息。VToonify通过移除StyleGAN的浅层来接受任何分辨率的输入特征,解决了StyleGAN的固定裁剪限制。然而,这些浅层对于捕捉面部的高级特征至关重要,比如姿势、发型和脸型。因此,如何克服StyleGAN的固定裁剪限制,同时保持其原有的风格操作能力,是一个值得研究解决的问题。所以本章对生成器第一层特征模块进行了研究,将StyleGAN的浅层进行扩张,提供足够的结构与布局信息。

图2所示,与StyleGAN相比,将恒定的4×4的第一层特征替换为分辨率为输出图像的1/32的可变特征。例如,对于一张分辨率为1472 × 1600的人脸照片,可以获得其潜在代码和一个额外的46 × 50第一层特征作为输入。随后,去除第八层之前的上采样操作,允许7个浅层中的特征与第7层共享相同的分辨率。为了进一步解决卷积核与放大后的分辨率不匹配问题,将卷积修改为扩张卷积用来扩大感受野,将第一层扩张因子从1更改为8。StyleGAN的第一层变为变量,原来的W空间扩展到 WF 空间,其中潜在空间 wW ,提供风格线索,风格生成器第一层特征 fF ,主要负责编码空间信息。

Figure 2. HcpGAN generator detail diagram

2. HcpGAN生成器细节图

将StyleGAN第一层进行重构主要有以下优势:分辨率放大和可变的第一层特征克服了固定裁剪(256 × 256)的限制;兼容性提高,在重构过程中,没有模型参数被改变,意味着可以直接加载预训练的StyleGAN模型的参数,而无需重新训练;操作灵活,保留了StyleGAN的风格表示和编辑能力。

2.2.2. 去风格化算法

无条件的风格迁移模型很多都是处理的整体风格迁移,通常训练数据都需要上万张,而将这样的模型应用在数据较少的基于单一艺术肖像风格迁移任务上会导致捕获艺术样式的多样性丢失。因此,本小节旨在通过有效地监督实现基于单一艺术肖像的风格迁移,仅通过训练一百多张图像实现有效的艺术肖像风格迁移。面部去风格化算法旨在从艺术肖像中恢复真实的面部作为监督。给定目标领域的艺术肖像,希望在人脸领域找到合理的对应参照,由于这两个领域存在很大的外观差异,因此在面部真实感和肖像的逼真度之间取得平衡是一个不小的挑战。为了解决这个问题,本小节提出了一种多阶段去风格化方法逐步增强人像的真实感。

一阶段:潜在初始化。艺术肖像S通过编码器E嵌入到StyleGAN的潜在空间中。编码器使用pSp编码器并对其进行修改,将肖像面孔嵌入到Z+空间,与原始的W+空间相比,该空间对与人像面孔无关的背景细节和扭曲的形状更具鲁棒性,重建的面孔用 g( z e + ) 表示,如图3所示。其中g是在FFHQ上预训练的StyleGAN,潜在代码 z e + =E( S ) 18×512 E(S)很好地捕捉到了肖像S的颜色和结构。

Figure 3. Facial destylization algorithm

3. 面部去风格化算法

二阶段:潜在优化。风格肖像通过优化g的潜在代码来重建该图像,并将该代码应用于微调模型 g ,来对人脸图像进行风格化。本小节采用新的方式反向优化 g 的潜在代码 z + ,用一个新的正则化项重构S,并将所得的结果 z ^ e + 应用于g,用来获得一个去风格化肖像版本,如图3所示,推导过程即式(1)所示。

z ^ e + =arg min z + L P ( g ( z + ),S )+ λ id L id ( g ( z + ),S )+ σ( z + ) 1 (1)

其中 L p 表示感知损失, L id 式保持面部同一性的身份损失, σ( z + ) 表示潜在代码 z + 中18个不同512维向量的标准误差, λ id 默认为0.1。本节设计了正则化项来将避免人脸的过度拟合导致出现非正常伪影,并且使用 z e + 而不是平均潜码来初始化 z + ,有助于准确地拟合人脸结构。

三阶段:图像编码。作为最后一个阶段,将 g( z ^ e + ) 编码为 z i + =E( g( z ^ e + ) ) ,进一步消除了不真实的面部伪影,得到 g( z i + ) 具有合理的面部结构,为艺术肖像风格迁移提供了有效的监督。

2.3. 基于扩张卷积的特征扭曲层

大多数视频处理方法建立在图像到图像的翻译模型上,并集成额外的网络,如光流或时间预测器,以建模时间关系,但这些额外的网络使得模型训练和推理变得复杂,并降低了模型处理速度。为了确保视频风格迁移的时间一致性,本小节提出了一种新的特征扭曲层,并将其直接嵌入在生成器网络中,该网络克服了以往方法的局限性并且加快了训练和测试时间。特征扭曲是光流扭曲的一种替代方法。

为了捕捉时间关系,本模型不使用任何辅助网络(例如光流或时间预测网络),相反,从视频帧和相邻帧中提取的特征扭曲成一个网络层,以生成时间稳定和风格化的帧,如图4所示。

Figure 4. Video frame processing module structure diagram

4. 视频帧处理模块结构图

当HcpGAN处理视频时,以两幅图像作为输入,即 I t I t+δ I t 表示t时间的视频帧, I t+δ 表示 t+δ 时间点的视频帧, δ 表示时间间隔,在 { 2,,2 } 中进行取值。通过风格迁移模块进行处理,将视频帧进行转发,以分别提取特征图 f t f t+δ 。随后对这两个特征图进行差值计算,得到差值记为 f diff = I t I t+δ ,将该差异映射转发到由8个卷积块组成的偏移网络,其中每个块由3 × 3卷积层、实例范数(Instance Norm) [22]和ReLU层的两个序列组成,并计算偏移特征 f offset 。在最后阶段对偏移特征 f offset 与相邻帧 f t+δ 进行扭曲,以创建最终的平移帧。特征扭曲层包含5个平行层,用于捕捉不同分辨率的特征,每个平行层包括扩张卷积和可变形卷积组成,卷积核大小都为3 × 3。偏移特征首先被送到扩张卷积中,扩张卷积的输出被用作可变形卷积的偏移值,并且相邻帧 f t+δ 被送到该可变形层。五个独立的特征扭曲层来捕捉不同分辨率的偏移特征,扩张值从3增加到24。在最后阶段堆叠每个可变形层的输出,然后在具有7 × 7大小的最终卷积层后进行Tanh激活,以生成平滑时间的风格化视频。

3. 实验结果与分析

3.1. 实验设置

本章实验均在三张NVIDIA Tesla v100 GPUs上进行的,使用PyTorch1.11深度学习库,python3.9来实现整个框架。针对于肖像风格迁移,卡通、漫画、动漫三种风格的训练数据集分别选自Toonify [13]、WebCaricature [23]、Danbooru Portraits [24],分别包含317张、190张、170张,将CelebA-HQ作为内容肖像数据集。在训练阶段,批量大小设置为4,在阶段二中,参数值默认设置为 λ adv =0.1 λ p =0.5 ,在第三阶段中参数默认设置为 λ adv =1 λ p =1 λ c =0.25 λ F =0.25 λ id λ reg 在卡通、漫画以及动画三种风格任务上分别设置为(1, 0.015),(4, 0.005)和(1, 0.02),迭代次数分别为1500、1000、2000次迭代训练,平均耗时约为1小时。在测试阶段,在相同的数据集上进行测试图像,针对肖像视频风格迁移,使用Pixels网站上随机采样的视频作为测试集,每张图像的测试时间约为0.5秒,wswc分别表示结构潜码(前7层)和颜色潜码(后11层),默认情况在训练过程中将风格迁移权重设置为1,ws设置为0.75,wc设置为1。

3.2. 损失函数设计

本小节提出了一种渐进式微调方案,分三个阶段逐步增加肖像风格迁移任务难度。

首先,对源域的色彩进行转移。这个阶段负责源域内的颜色传输,具体来说,调整残差模块(ModRes)中的卷积核被设置为接近0的值,以便产生可忽略的残差特征,并且颜色变换块中的全连接层被初始化,精细分辨率层和粗分辨率层分别使用来自内在和外在风格路径的潜在代码,为下一个阶段做准备。

其次,在第二阶段中对源域的结构进行转移。该阶段充分训练其外在风格路径从而捕捉和传递结构风格。通过随机风格潜在代码z1z2,并且希望 G( z 1 , z ˜ 2 ,1 ) 近似具有感知损失的风格混合目标 g( z l + ) ,其中 z ˜ 2 是从 { z 2 ,E( g( z 2 ) ) } l是发生风格混合的层, z l + z + l层向量z1和(18-l)层的向量z2的级联。目标如式(2)

min G max D λ adv L adv + λ p L p ( G( z 1 , z ˜ 2 ,1 ),g( z l + ) ) (2)

其中, L adv 表示对抗损失,通过减少l g( z l + ) 会从 z ˜ 2 得到更多的结构风格,所以,外在风格路径将学会捕捉和传递更多的结构风格。

在第三阶段进行目标域的风格迁移,对于随机内在风格代码z,应用风格损失:

L s = λ c L c ( G( z, z e + ,1 ),S )+ λ F L F ( G( z, z e + ,1 ),S ) (3)

其中, L c 表示上下文损失[25] L F 表示特征匹配损失[26],以将 G( z, z e + ,1 ) 的样式匹配到S。对于内容损失,使用身份损失[27] L 2 正则化,如式(4)所示。

L con = λ id L id ( G( z, z e + ,1 ),g( z ) )+ λ reg W 2 (4)

与第一阶段初始化类似,权重矩阵上的正则化使得残差特征接近于0,这有利于保留原始的面部结构并防止过拟合。最后,与3.5小节类似,本小节也引入了复合时间一致性损失 L t 以增强视频帧之间的时间一致性。公式如(5)所示。

L t = F( W( X )+Δ )F( W( X ) ) F (5)

最终完整的损失函数定义为式(6)所示。

L= min G max D λ adv L adv + λ p L p + L s + L con + λ t L t (6)

3.3. 肖像风格迁移实验结果

3.3.1. 定性对比实验结果与分析

图5展示了本章所提出的HcpGAN分别与五种先进的肖像风格迁移模型进行比较。所有进行测试内容图像和风格图像都是额外收集的,并不包含在训练数据集中。比较的五种模型分别为基于范例的高分辨率风格迁移模型DualStyleGAN [16]、稳定可控的卡通风格迁移模型GNR [11]、具有自适应层实例归一化的无监督生成注意网络U-GAT-IT [9]、动漫风格迁移网络AnimeGANv2 [6]以及基于少镜头域校准翻译的风格迁移模型DCT-Net [15]

GNR模型是一种图像到图像翻译的方法,它使用数据增强的思想,包括缩放、旋转、裁剪等等,使用具有不同增强的同一图像来形成批处理,从而实现一张人脸生成多种风格动漫脸,然而,如图5所示,GNR生成的图像过度拟合动漫风格而忽略了内容肖像(例如第四行,男人的短发卡通风格化后变成长发)U-GAT-IT模型结合了新的注意力模块和一个新的端到端可学习的归一化函数,注意力模块根据辅助分类器获得注意力图,引导模块关注更重要的区域。观察实验结果发现,U-GAT-IT模型能够准确定位人脸的局部并风格化,但是边缘轮廓不清晰,面部会产生伪影(例如第二行结果图)。AnimeGAN采用了特征归一化来防止网络在生成图像上总是产生高频伪影,减少局部噪声,从而生成轮廓清晰、色彩均匀的风格化肖像图。DCT-Net采用“先校准,后翻译”的核心思想进行稳定的跨域翻译,从而产生高保真的结果。然而这两种方法学习的都是域级(即整体的风格)而非图像级(即单一示例风格),因此它们的结果与示例风格不一致。相比之下,DualStyleGAN模型使用能够将颜色和语义结构上很好的迁移到目标示例风格中,同时处理高分辨率图像,但存在图像分辨率限制(即将输入图像进行固定裁剪处理以及输出分辨率固定为1024 × 1024),而本章模型能够在接受任何分辨率的输入特征的同时进行有效风格迁移。

3.3.2. 定量对比实验结果与分析

为了定量评估本章模型的性能,本小节采用ID和SSIM作为风格化衡量指标,并且进行了用户调研,邀请了50位参与者进行调研。参与调研的用户将从上述6种模型生成风格化结果中选择她们认为最好的结果,每个模型使用19张风格化图像结果进行评估。此外,本小节从CeleA-HQ数据集中为每种方法在卡通数据集、漫画数据集和动漫数据集上各生成50张肖像风格化图像。为了进一步评估生成肖像图像与原图像之间的身份相似度ID以及SSIM,将每个模型的50组风格化肖像取均值计算。身份相似度ID值越高,代表保留的身份特征细节越好,SSIM值越高,代表两幅图像相似度越高。定量结果如表1所示,本章所提出的方法不仅可以根据示例风格产生色彩丰富、纹理清晰的风格化肖像,还能够得到最高的ID值和SSIM值,确保可视化效果的同时保留更真实的身份细节。

Figure 5. Portrait style transfer qualitative experiment comparison diagram

5. 肖像风格迁移定性实验对比图

Table 1. Quantitative comparison of models

1. 模型定量比较

模型方法

DualStyleGAN [16]

GNR [11]

U-GAT-IT [9]

AnimeGAN [6]

DCT-Net [15]

Ours

ID↑

0.68

0.53

0.58

0.70

0.69

0.72

SSIM↑

0.42

0.02

0.08

0.24

0.37

0.45

preference↑

0.23

0.04

0.14

0.18

0.16

0.25

3.4. 视频风格迁移实验结果

3.4.1. 定性对比实验结果与分析

为了对本章提出的方法在视频迁移任务上进行定性可视化展示,本章模型将与四种方法最相似的模型进行对比试验,分别是pix2pixHD [5]、Toonify [13]、DualStyleGAN [16]、VToonify [28]。每个视频截取第0帧和第5帧进行展示,模型对比实验可视化图如图6所示。

Toonify是一个基于StyleGAN的整体风格迁移模型,用于在对齐的脸上进行风格迁移。由于高模型需要通过pSp编码器进行人脸的对齐和裁剪为256 × 256图像以获得风格化潜码,风格化潜码再输入Toonify以获得1024 × 1024的风格化结果,所以未被风格化的区域被简单的设置为黑色进行展示。Pix2pixHD模型是一种图像到图像的翻译模型,被广泛应用于提取高分辨率编辑的预训练模型。在配对数据上对Pix2pixHD进行训练,使用提取的解析映射作为附加实例映射输入。最后和基于StyleGAN模型的DualStyleGAN以及VToonify模型进行比较。DualStyleGAN扩展了StyleGAN,使得它能够接受新的风格条件同时保留其在原域的风格。VToonify在Toonify的基础上进行调整,提出新颖的全卷积框架,支持未对齐的面和各种尺寸的视频。

Figure 6. Comparison diagram of qualitative experiment on video style transfer

6. 视频风格迁移定性实验对比图

图6展示5种高分辨率模型的定性比较。通过图中的对比可以看出,Pix2pix在风格化过程中会出现较明显的视频抖动问题,并且仔细观察上面三个视频会发现视频帧中会出现边缘伪影,例如箭头所标注的毛发区域以及衣领区域处理,无法进行边缘细节处理。Toonify模型和DualStyleGAN能够基本满足视频肖像风格迁移的需求,但是需要对输入视频进行对齐和裁剪预处理操作,存在固定裁剪限制问题。VToonify通过移除StyleGAN的浅层来接受任何分辨率的特征,解决了固定裁剪限制,能够生成时间序列上稳定的以及效果可观的风格化视频。然而,VToonify删除掉的浅层对于捕捉面部的高级特征至关重要,不同通过简单的移除解决问题。而本章的模型通过进一步的调整,在不进行删除的条件下,添加特征扭曲层处理时间序列,生成风格化高质量肖像视频,例如在第二个视频中面部有着剧烈的变化,本章模型HcpGAN能够生成清晰的嘴部细节以及丰富的面部细节。为了保持视频中肖像的身份可识别,本章在测试过程中将根据指定风格示例进行风格化的风格权重调整为(0.6, 0),仅进行面部风格化。本章模型唯一的遗憾在于在处理耳环饰品时没有处理得很好。

3.4.2. 定量对比实验结果与分析

成功的视频风格迁移有两方面的评价指标:原图像与目标图像的视觉相似性和视频帧之间的时间一致性。为了从这两个方面定量评价视频风格化质量,使用了以下3个指标。

FID是一个广泛使用的评价指标来评估两个域之间的视觉相似性,通过比较生成图像和真实图像的特征分布,并计算它们之间的距离。FID分数越低,视觉相似性就越高。为了测量时间一致性,复用3.5.6小节中提到的时间一致性损失(Temporal Loss),较低的时间一致性损失表示两帧间的相关性的连贯性得到了更好的保持。最后本小节同样使用用户调研的方法来保证模型的可视化效果,将每种模型在3种风格上分别测试生成的10个风格化短视频,用户进行打分。具体的定量对比实验结果如表2所示,在最优结果上进行加粗显示,在次优结果上加下划线。

Table 2. Quantitative comparison results of portrait video style transfer

2. 肖像视频风格化定量对比结果

模型方法

pix2pixHD [5]

Toonify [13]

DualStyleGAN [16]

VToonify [28]

Ours

FID↓

170.63

171.40

166.59

167.43

165.60

Tem Loss↓

0.139

0.090

0.125

0.094

0.083

User prefer↑

0.17

0.09

0.12

0.22

0.40

4. 消融实验

4.1. 去风格化算法

为了进一步检测去风格化算法生成的去风格化配对图像在风格化过程中的影响力,图7中进行了有去风格化图像监督和无监督条件下的比较。在无监督条件下,模型倾向于过度拟合肖像,而不考虑输入的人脸结构与面部细节。在有监督的情况下,模型受到有效引导,能够更好地理解人脸和风格化肖像之间的结构关系,因此产生了更合理的风格化肖像结果。

Figure 7. Destylized algorithm ablation experiment

7. 去风格化算法消融实验图

4.2. 损失函数

4.2.1. 正则化项

正则化项:为了检测正则化项对肖像风格迁移的影响,本小节对是否设置正则化项进行消融实验。图8从左到右依次展示了正则化项参数值的变化是如何影响肖像生成的过程。根据观察可以发现,不添加正则化项,模型会导致过度拟合风格图像,例如图8中,当 λ reg 为0时,生成图像过度拟合风格肖像的嘴巴,导致面部细节不自然,当 λ reg 调整为0.005时,能够将两种风格自然的融合。

4.2.2. 时间一致性损失

为了检验时间一致性损失 L t 对生成视频的影响,本小节进行了消融对比试验。图9第一行显示待处理视频,第二行显示对应时间误差热图。时间误差图是通过高斯差分计算相邻帧图像的差异,生成的运动轨迹热力图,它通常用于评估和分析时间测量的准确性和稳定性。从图9中可以看到添加了时间一致性损失的视频时间误差热图更接近原视频真值,未添加时间一致性损失的视频在时间误差热图上存在明显的伪影。

Figure 8. Regularized term ablation experiment diagram

8. 正则化项消融实验图

Figure 9. Temporal consistency ablation experiment diagram

9. 时间一致性消融实验图

4.3. 特征扭曲层

为了验证特征扭曲层在训练过程中对时间一致性的影响,本小节对特征扭曲层和偏移网络分别进行了消融实验。针对偏移网络,本小节将对该卷积网络的层数进行消融实验,分别设置为6,8,10进行消融实验。在上述实验中,均保持特征卷曲层数固定为5,消融实验结果如表3所示。当卷积网络深度为8时,参数性能最好。

Table 3. Offset network parameter value ablation experiment

3. 偏移网络参数值消融实验

参数值

FID↓

Temporal loss↓

6

250.67

0.125

8

162.43

0.092

10

274.70

0.168

针对特征扭曲层设计消融实验,将扭曲层从1增加到5进行实验,在这个过程中保持偏移网络的网络层数设置为8。消融实验结果如表4所示,从表中可以看出,当特征扭曲层层数设置为5时,模型能够获得最佳性能。

Table 4. Characteristic warping layer parameter value ablation experiment

4. 特征扭曲层参数值消融实验

参数值

FID↓

Temproal loss↓

1

290.67

0.198

2

255.76

0.124

3

280.69

0.156

4

298.40

0.168

5

162.90

0.102

5. 结论

针对人脸肖像风格迁移任务,本文采用基于StyleGAN作为骨干网络,提出了基于StyleGAN的高分辨率可控肖像视频风格迁移网络(HcpGAN),采用内外双支路风格迁移路径实现了肖像风格可控,实现灵活的多级样式操作。除此之外,本文还将StyleGAN的第一层使用扩张卷积进行重构,解决了“固定裁剪问题”,使得HcpGAN能够接受不同分辨率的未对齐人脸或肖像视频作为输入,实现低分辨率视频输入生成高分辨率视频。HcpGAN提出了一种新的去风格化算法,实现风格样式图像较少的情况下高质量风格迁移。最后,本文提出了一种新的特征扭曲层,将特征扭曲层集成到生成器中。通过大量的定性和定量对比实验,本文所提出的HcpGAN能够实现高质量的视频风格迁移效果。

虽然本文的工作取得了阶段性的成果,但是仍然存在一些不足:不能处理极端角度的人脸问题,未来考虑将使用多角度肖像数据集训练结合人脸关键点检测算法,进一步解决该问题;复杂的运动场景难题,本文的模型以及测试的视频都是基于简单的均匀光流,因此,在具有饱和区域或复杂运动的场景中可能不太有效。未来考虑引入帧间插值技术,生成中间帧,以平滑视频中的运动。

参考文献

[1] Gatys, L.A., Ecker, A.S. and Bethge, M. (2016) Image Style Transfer Using Convolutional Neural Networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 2414-2423.
https://doi.org/10.1109/cvpr.2016.265
[2] Selim, A., Elgharib, M. and Doyle, L. (2016) Painting Style Transfer for Head Portraits Using Convolutional Neural Networks. ACM Transactions on Graphics, 35, 1-18.
https://doi.org/10.1145/2897824.2925968
[3] Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. (2014) Generative Adversarial Networks. Advances in Neural Information Processing Systems, 3.
https://www.researchgate.net/publication/263012109
[4] Isola, P., Zhu, J., Zhou, T. and Efros, A.A. (2017) Image-to-image Translation with Conditional Adversarial Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 5967-5976.
https://doi.org/10.1109/cvpr.2017.632
[5] Wang, T., Liu, M., Zhu, J., Tao, A., Kautz, J. and Catanzaro, B. (2018) High-Resolution Image Synthesis and Semantic Manipulation with Conditional Gans. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 8798-8807.
https://doi.org/10.1109/cvpr.2018.00917
[6] Chen, J., Liu, G. and Chen, X. (2020) Animegan: A Novel Lightweight GAN for Photo Animation. In: Li, K., Li, W., Wang, H. and Liu, Y., Eds., Communications in Computer and Information Science, Springer, 242-256.
https://doi.org/10.1007/978-981-15-5577-0_18
[7] Cao, K., Liao, J. and Yuan, L. (2018) CariGANs: Unpaired Photo-to-Caricature Translation. ACM Transactions on Graphics, 37, 1-14.
https://doi.org/10.1145/3272127.3275046
[8] Zhu, J., Park, T., Isola, P. and Efros, A.A. (2017) Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 2242-2251.
https://doi.org/10.1109/iccv.2017.244
[9] Kim, J., Kim, M., Kang, H., et al. (2019) U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation. arXiv: 190710830.
[10] Li, B., Zhu, Y., Wang, Y., Lin, C., Ghanem, B. and Shen, L. (2022) AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation. IEEE Transactions on Multimedia, 24, 4077-4091.
https://doi.org/10.1109/tmm.2021.3113786
[11] Chong, M.J. and Forsyth, D. (2021) GANs N’Roses: Stable, Controllable, Diverse Image to Image Translation (Works for Videos Too!) arXiv: 210606561.
[12] Karras, T., Laine, S. and Aila, T. (2019) A Style-Based Generator Architecture for Generative Adversarial Networks. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 4396-4405.
https://doi.org/10.1109/cvpr.2019.00453
[13] Pinkney, J.N. and Adler, D. (2020) Resolution Dependent GAN Interpolation for Controllable Image Synthesis between Domains. arXiv: 201005334.
[14] Song, G., Luo, L., Liu, J., Ma, W., Lai, C., Zheng, C., et al. (2021) AgileGAN: Stylizing Portraits by Inversion-Con-sistent Transfer Learning. ACM Transactions on Graphics, 40, 1-13.
https://doi.org/10.1145/3450626.3459771
[15] Men, Y., Yao, Y., Cui, M., Lian, Z. and Xie, X. (2022) DCT-Net: Domain-Calibrated Translation for Portrait Stylization. ACM Transactions on Graphics, 41, 1-9.
https://doi.org/10.1145/3528223.3530159
[16] Yang, S., Jiang, L., Liu, Z. and Loy, C.C. (2022) Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 7683-7692.
https://doi.org/10.1109/cvpr52688.2022.00754
[17] Radford, A., Kim, J.W., Hallacy, C., et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. arXiv: 2103.0002.
[18] Fox, G., Tewari, A., Elgharib, M., et al. (2021) Stylevideogan: A Temporal Generative Model Using a Pretrained StyleGAN. arXiv: 210707224.
[19] Yao, X., Newson, A., Gousseau, Y. and Hellier, P. (2021) A Latent Transformer for Disentangled Face Editing in Images and Videos. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 13769-13778.
https://doi.org/10.1109/iccv48922.2021.01353
[20] Tzaban, R., Mokady, R., Gal, R., Bermano, A. and Cohen-Or, D. (2022) Stitch It in Time: GAN-Based Facial Editing of Real Videos. SIGGRAPH Asia 2022 Conference Papers, Daegu, 6-9 December 2022, 1-9.
https://doi.org/10.1145/3550469.3555382
[21] Zhao, H., Shi, J., Qi, X., Wang, X. and Jia, J. (2017) Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6230-6239.
https://doi.org/10.1109/cvpr.2017.660
[22] Ulyanov, D., Vedaldi, A. and Lempitsky, V. (2016) Instance Normalization: The Missing Ingredient for Fast Stylization. arXiv: 160708022.
[23] Huo, J., Li, W., Shi, Y., et al. (2017) WebCaricature: A Benchmark for Caricature Recognition. arXiv: 170303230.
[24] Branwen, G. Anonymous, and The Danbooru Community (2019) Danbooru2019 Portraits: A Large-Scale Anime Head Illustration Dataset.
[25] Mechrez, R., Talmi, I. and Zelnik-Manor, L. (2018) The Contextual Loss for Image Transformation with Non-Aligned Data. In: Ferrari, V., Hebert, M., Sminchisescu, C. and Weiss, Y., Eds., Computer VisionECCV 2018, Springer International Publishing, 800-815.
https://doi.org/10.1007/978-3-030-01264-9_47
[26] Huang, X. and Belongie, S. (2017) Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 1510-1519.
https://doi.org/10.1109/iccv.2017.167
[27] Deng, J., Guo, J., Xue, N. and Zafeiriou, S. (2019) ArcFace: Additive Angular Margin Loss for Deep Face Recognition. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 4685-4694.
https://doi.org/10.1109/cvpr.2019.00482
[28] Yang, S., Jiang, L., Liu, Z. and Loy, C.C. (2022) VToonify: Controllable High-Resolution Portrait Video Style Transfer. ACM Transactions on Graphics, 41, 1-15.
https://doi.org/10.1145/3550454.3555437