面向VVC标准的CU划分模式快速决策算法综述
A Review of Fast Decision Algorithms for CU Partitioning Patterns for VVC Standard
DOI: 10.12677/sea.2024.133044, PDF, HTML, XML, 下载: 36  浏览: 88  科研立项经费支持
作者: 胡译夙, 郑钧文, 王 滢:浙江万里学院信息与智能工程学院,浙江 宁波
关键词: 视频编码通用视频编码划分模式编码单元Video Coding Versatile Video Coding Partitioning Patterns Coding Unit
摘要: 视频编码是数字视频传输和存储的核心技术之一。随着移动互联网和视频流媒体的快速发展,视频编码技术面临着越来越多的挑战。通用视频编码(Versatile Video Coding, VVC)是新一代视频编码标准,它提供了更高的压缩效率来满足日益增长的视频传输和存储需求。编码单元(Coding Unit, CU)划分是VVC编码中的一个重要步骤,用于将视频帧划分为不同大小的块,以便进行不同的编码和处理操作。开发快速而准确的CU划分算法对于提高编码效率至关重要。本文综述了面向VVC标准的快速CU划分算法,分机器学习(ML)下的算法和其他算法两大类进行归纳分析,并探讨了它们各自的优缺点。最后,对CU快速划分算法进行了简单总结和展望。
Abstract: Video coding is a fundamental technology for digital video transmission and storage. With the rapid growth of mobile Internet and video streaming, video coding faces increasing challenges. Versatile Video Coding (VVC) represents the new generation of video coding standards, aiming to provide higher compression efficiency to meet the rising demands of video transmission and storage. A critical step in VVC coding is the Coding Unit (CU) partitioning, which involves partitioning the video frame into differently sized chunks for various coding and processing operations. The development of a fast and accurate CU partitioning algorithm is pivotal in enhancing coding efficiency. In this paper, we review fast CU partitioning algorithms for the VVC standard, categorizing them into two groups: algorithms based on Machine Learning (ML) and other algorithms. We also discuss their respective advantages and disadvantages. In conclusion, we provide a brief summary and future prospect for CU fast partitioning algorithms.
文章引用:胡译夙, 郑钧文, 王滢. 面向VVC标准的CU划分模式快速决策算法综述[J]. 软件工程与应用, 2024, 13(3): 424-438. https://doi.org/10.12677/sea.2024.133044

1. 引言

视频在时代的发展中成为了大众媒体、生活娱乐所必要的传播媒介。无论是短视频平台,还是影视剧亦或者是电影院线等,都在追求更高清的画质。然而,现如今常见的相对完善的高效视频编码(High Efficient Video Coding, HEVC)标准主要面向高清(720P、1080I、1080P)视频编码,无法满足当前超高清、高动态范围、360˚视频、VR等新兴视频编码的要求[1]。因此,国际标准化组织和国际电信联盟联合制定了第四代视频编码标准——通用视频编码(Versatile Video Coding, VVC)标准。

VVC中采用了大量先进的视频编码技术,如CU划分的四叉树嵌套多类型树(Quad-Tree Plus Multi-type Tree, QTMT)结构、更精细的粒度角预测、多参考线和自适应运动矢量分辨率等[2]。其中,QTMT结构在纹理平坦的区域使用较大的正方形块,在纹理复杂的区域使用更小的矩形块,使得VVC的划分模式更加灵活且适应视频的纹理特性。如图1所示,基于QTMT的划分中有六种划分模式,四叉树(Quad Tree)划分、二叉树水平(Binary Tree Horizontal, BTH)划分、二叉树垂直(Binary Tree Vertical, BTV)划分、三叉树水平(Ternary Tree Horizontal, TTH)划分、三叉树垂直(Ternary Tree Vertical, TTV)划分和不划分(No Splitting, NS) [3]

在同样条件下编码同一视频,与HEVC相比,VVC的压缩效率提高了50%,在节省传输流量的同时,还能保证视频的质量。但VVC的编码复杂度是HEVC的10倍,解码复杂度是HEVC的两倍,使VVC在现实应用中难以普及。4K、8K及更高分辨率的视频的推广以及多通道视频的兴起,手机等移动设备上实时视频聊天的广泛应用,都离不开大量的视频数据,同时也需要更加快速、高效的视频编解码器。研究发现,VVC标准中的CU划分模式的决策过程耗费了近99%的编码时间[2]。因此,出现了很多针对划分模式预测的算法,算法可以根据CU的某些特性对划分模式进行预测,以此来节省视频编码时间,提升编码效率。

本文归纳了多种CU划分算法,主要分为机器学习(Machine Learning, ML)下的算法和其他模式下的算法两个部分,ML下的算法分别基于卷积神经网络(Convolutional Neural Network, CNN)、支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree, DT)、时序预测模型和深度强化学习进行CU划分。其他模式下的算法基于跨块差分、梯度和纹理以及解码器进行CU划分。从算法的基本原理、分类方法进行客观的分析,最后总结CU划分算法的目前挑战和对未来发展的展望。

Figure 1. Six partitioning patterns based on QTMT

1. 基于QTMT的六种划分模式

2. 机器学习下的CU划分算法

2.1. 基于卷积网络的算法

基于卷积网络的CU划分算法中含有CNN以及轻量级卷积神经网络(lightweight Convolutional Neural Network, lightweight CNN)和全局卷积网络(Global Convolutional Network, GCN),目前这些方法可以进行快速CU划分,但是在算法的性能、不同模型的兼容性等方面还有提升空间,希望未来可以进一步完善升级。以下是关于卷积网络的CU划分算法。

图2展示了原始VVC确定最佳划分模式的算法与快速算法的差别。VVC测试模型(VVC Test Model, VTM)处理多类型树(Multi-Type Tree, MTT)的过程为依次计算BTH、BTV、TTH和TTV划分的率失真代价(Rate-Distortion cost, RD cost),选择RD cost最小的划分模式作为最佳划分模式,而提出的算法对CU特征进行分析并利用CNN来预测CU的最佳划分模式,从而跳过VTM中的率失真优化过程[4]

特征分析法基于像素的方差,CU中的像素方差可以用于测量纹理复杂度,因此利用像素方差来分别确定MTT划分。为了减少繁重的计算和避免小区域变化的影响,利用了特征图转换,将每个32 × 32大小的CU划分为16个8 × 8大小的像素块,每个8 × 8大小的方差被作为一个新单位,称作特征图,特征图转换将大多数32 × 32大小的CU都能在编码增益损失小的情况下被分类。

DL应用了CNN进行分类。CNN用于确定那些未被分类的MTT划分。接着使用了监督学习的算法,将两类图像数据(变换的基础大小或者目标变换的基础大小)用CNN标注,并且经过一定的CNN模型训练,得出了先用变换块图像训练神经网络模型,其次用TT图像数据更新训练好的神经网络模型。CNN对32 × 32大小的CU的MTT划分进行水平或者垂直划分分类。

此算法的好处在于利用了现有算法的优势,同时用一种新颖的算法将它们结合在一起,缩短了VVC内部编码的时间,同时保持了视频编码质量。不过仍然需要提高CNN的性能,包括分类的准确性以及VTM的兼容性和模型的数量。

Li等[5]对标准训练集中的视频进行了CU划分模式的处理和分析,由于一个大小为64 × 64大小的CU只允许两种划分模式,分别是四叉树划分和不划分,因此利用梯度和量化参数(Quantization Parameter, QP)之间的关系来检测纹理复杂度。图3为提出的快速CU划分决策算法流程图。此算法先通过预判定的方法,利用基于梯度的方法来检测纹理复杂度,以此来判定CU是否被划分。若梯度大于0.15 × QP2时,进行四叉树划分。接着通过高度、深度、宽度进行筛选并生成名单,并更新名单进行划分。

Figure 2. Flowchart of the algorithm for determining the optimal partitioning pattern for the original VVC

2. 原始VVC确定最佳划分模式的算法流程图

预决策算法是利用基于纹理复杂度的算法来判断大尺寸的CU能否划分。根据MTT划分的非对称性改进了CNN模型,提高了模型提取非对称性的能力。在设计过程中使用了对称卷积核和非对称卷积核来提取不同方向的特征。并且在损失函数的部分,使用交叉熵函数训练CNN模型,为了提高模型准确度。最后通过候选列表中设置适当的阈值,可以减少编码时间,保持高质量视频的同时,提高了编码效率。此模型用于预测划分模式的概率,可有效降低编码复杂度。首先得到需要输入CNN的CU,通过不同卷积层提取CU特征,并将提取的特征拼接成为特征向量,通过不同的连接层,最后输出一个1 × n (n的大小为CU划分模式数)的预判定概率向量。通过产生相应模式的概率,构成候选列表。为了提高模型准确性,需要更新列表,即通过对列表进行排序,然后根据阈值决定列表中的最佳划分模式。

与CNN相比,预决策算法不需要构建网络,也不需要经过大量数据训练,节省了大量时间。在对不同分辨率的标准视频序列进行编码时,发现VVC采用的新编码结构方式能够适应不同的视频序列。此算法适应性更强,速度明显更快,比传统的VVC算法节省更多的编码时间。但是此算法在高QP条件下无法保持高质量的视频画面。

Figure 3. Flowchart of fast CU partitioning decision-making algorithm

3. 快速CU划分决策算法流程图

基于lightweight CNN的算法[6]通过纹理信息预测划分模式,提前终止冗余的划分模式,以此加速CU划分。该算法面向不同的CU大小设计了相应的分类器,提高了预测的精度。通过在损失函数中引入误分类导致的性能损失,保证了低率失真(Rate Distortion,RD)的性能退化。

文中提出了一种基于lightweight CNN的快速CU内部划分算法,跳过一些划分模式的检查,降低编码的复杂度。使用两个二元分类器进行预测选择模式。首先提出了基于lightweight CNN的多种划分网络架构,如图4所示,从原始CU中提取亮度分量(Luma分量)并输入网络中,经过重叠卷积后得到特征图,此过程为了获取纹理信息。接着如图5算法流程图所示,在编码一个可以被划分的CU时,通过分类器决定跳过所有的划分模式或者跳过NS模式。如果跳过所有划分模式,则直接可以进行帧内预测;否则水平划分或垂直划分分类器决定跳过水平划分模式或者跳过垂直划分模式。

此算法在编码效率和节省时间之间实现了很好的折衷,并且优于许多先进的算法。虽然算法可以有效地加速VVC编码,但是它消耗了一定的时间开销。不过虽然划分或NS和水平划分或垂直划分分类器准确率比较高,还是会有一些分类误差存在。

Figure 4. Multiple partitioning network architecture based on lightweight CNN

4. 基于lightweight CNN的多种划分网络架构

Figure 5. Flowchart of algorithm based on lightweight CNN

5. 基于lightweight CNN的算法流程图

通过使用具有大核尺寸卷积、GCN模块,捕捉CU中的全局信息,从而使得在QTMT中更加精准地预测划分模式[2]。并且根据预测概率进行排序,将低概率的划分模式进行排除,从而降低了计算复杂度。

首先在VVC帧内模式中使用此算法进行CU划分。由于所提出的基于GCN模式的网络首先应用于64 × 64的CU,所以将一个128 × 128的CTU分为4个64 × 64的CU。将CU输入网络内预测划分模式为NS模式或QT划分模式。在排除QTMT编码结构中冗余的CU划分模式后,只计算其他划分率失真成本(RD cost),最后选择最小的RD cost模式作为最优模式,如此降低了VVC的及计算复杂度。

基于GCN的模式网络结构(见图6)包含了三个模块,即特征提取模块、GCN模块和预测模块。在基于GCN所提出的算法中使用GCN模块捕捉特征,提取模块输出的特征图中的全局像素相关性,通过此算法可以充分利用CU的全局信息,更加精准地选择CU划分模式。GCN模式所提出的算法是将图像划分思想应用于CU划分,即将CU输入所提出的基于全局卷积的网络中,CU划分持续进行直到CU划分最小宽度或高度为4时。

实验结果表明,当在加速模式内VVC的CU划分过程,此网络中的特征提取模块和GCN模块都能保持良好的编码性能。在预设为慢速和中速时,所提出的算法优于最先进的快速CU划分算法和原始VVC。并且此算法可以根据用户的偏好,以不同的策略实现编码性能和计算复杂度之间的权衡。此算法能在可容忍编码性能下降的情况下大大降低计算复杂。在复杂性和性能权衡方面,优于其他最先进的算法。但是这种基于GCN模式内VVC快速CU划分算法仅适用于CU亮度通道。

Figure 6. GCN-based schema network architecture

6. 基于GCN的模式网络结构

2.2. 基于支持向量机的算法

多特征引导的快速CU划分和拉普拉斯引导的快速模式选择[7],共同加速QTMT内部的决策。在对于多特征引导的快速CU划分部分时,将CU划分看作为一个分类问题,并采用SVM进行低复杂度实现。最后选择了视频纹理的三个代表特征用于训练SVM模型。对拉普拉斯算子(Laplacian)引导的快速模式选择,利用Laplacian来确定当前CU最可能的方向,并且跳过一半的候选模式以节约运行时间,流程图如图7所示。因为想在合适的条件情况下跳过某些划分和模式,以此来加快编码过程。

首先特征提取,使用更多的特征会带来更好的编码性能,但是同时也会加大编码的时间。因此,要手动选择一系列的特征,并且采用衡量分类模型性能的综合指标(可独立计算每个特征对于分类的影响)来评估每个特征对于分类的用处。其次对于文中的整体快速CU划分算法流程如图7所示,对于CU大小为16 × 16的则跳过QT划分,如果CU大小为16 × 8或者8 × 16,则使用SVM模型进行预测,预测BT的划分方向,对于其他大小的CU,使用SVM模型来预测BT和TT的分类方向。此文献中提出了一种Laplacian引导的快速模式选择,利用Laplacian梯度来确定纹理方向,从而提前跳过某些内部模式,以加速编码过程。

实验结果表明,所提出的算法明显优于现有算法,很大程度上缩短了编码时间。日后将进一步研究如何将所提出的模型与神经模型相结合,以获得更好的性能。

2.3. 基于决策树的算法

Zhang等[8]提出了基于DT的CU快速划分算法,该算法对CU块进行深度预测,在需要划分的深度层上建立DT模型,预测五种划分类型的概率,DT可以通过信息增益来选择更相关的特征属性,从而消除冗余或空白属性。它能恰当地处理包含数据型属性和常规属性的数据集,并且能很好地扩展到大型数据库。该算法不擅长处理缺失值的数据集,并可能伴有过拟合现象。但对大量数据CU划分,同时又希望过程不那么复杂时,可以考虑使用该算法。

Figure 7. Flowchart of fast CU partitioning algorithm based on support vector machine

7. 基于支持向量机的快速CU划分算法流程图

Li等[9]提出一种基于密集链接卷积网络和DT分类器的CU快速划分算法。算法流程图如图8所示,将CU通过改进的密集链接卷积网络模型,然后经过处理产生预测概率向量,再将概率向量通过轻量级梯度提升机器学习进行处理,并且概率的所有除法模式都是通过DT分类器后生成的。通过CNN模型之后会形成一个空间特征向量,把该向量输入到DT分类器中进行分类,并选择最优划分模式。该算法可以有效地利用全局信息进行划分决策。DT分类器分析各个的特征向量并确定最适合CU的划分组,即通过分析特征向量并对所有的划分模式概率进行排序,选择概率较高的前N个划分模式,跳过概率较低的划分模式。最后,比较前N个划分模式的RD cost,选择RD cost最小的划分模式。虽然该算法在编码性能和复杂性之间取得了平衡,但是网络模型的性能却不是最理想的,需要进一步改进。

Figure 8. Flowchart of fast CU partitioning algorithm based on dense linked convolutional network and DT classifier

8. 基于密集链接卷积网络和DT分类器的CU快速划分算法流程图

2.4. 其他机器学习下的算法

探索基于时间相关性的快速四叉树决策法,提前终止QTMT划分。根据CU的位置,来判断编码帧相对应位置的最佳CU划分信息。然后,根据时间CU划分信息建立时间预测模型,预测当前CU划分。最后,进一步提取CU的运动矢量差来减少时间预测模型的累积误差,以确定QTMT划分是否可以提前终止。与DL算法相比,提出的算法既不需要建立额外的大型数据集进行训练,也不需要额外的复杂训练来获取决策参数。但要注意这种基于时序预测模型的算法[10],该算法提前终止划分的过程还是会导致一些预测误差。

使用两个具有计算特征的额外树(ExtraTrees, ET)模型。其中第一个模型确定是否提前终止划分和最佳划分方向,第二个模型在BT和TT划分模式之间选择更好的划分模式。这种ET算法是一种比较新的基于随机DT的ML算法,运用了随机森林中的原理,使用随机的特征子集中的最佳特征和相应的值来划分节点,并且训练每个基本估计器的功能。而且ET用整个训练数据集来训练每个回归树,所以它有优于随机森林的随机性。ET虽然减少了方差,增加了偏差,但不一定导致错误率的提升,所以ET的表现还是很好的。与其它的算法相比,Wang等[11]的快速算法是一种比较具有竞争力的基于ET模型的算法。

把用于划分的32 × 32 CU看作马尔可夫决策过程,将某一节点CU划分的情况看作状态,将划分模式决策当作行动,将RD cost的减少或增加看作直接奖惩,奖励即初始CU的RD cost与其子CU在各子CU级别上的RD cost之和的差额。如果这个差额是负值,那便成了惩罚。然后将编码器视为代理,依此对编码做出决策。深度强化学习把DL的感知能力和强化学习的决策能力结合在一起,就能够直接根据输入的图像进行控制。独立模块与CU划分算法相结合,实现了快速编码。与现有的大部分快速算法相比,深度强化学习的这种算法[12]具有更好的编码性能。

表1汇总了在机器学习框架下,不同研究者对CU划分算法编码效率的比较结果。

3. 其他CU划分算法

3.1. 基于跨块差分的算法

基于跨块差分的VVC编码快速CU划分算法是为了降低VVC在实现了比HEVC更高的Rate Distortion性能后更高的复杂性。根据CU划分中采用的QTMT结构使块划分更加灵活和更具有内容自适应

Table 1. Comparison of coding efficiency of CU partitioning algorithms under machine learning

1. 机器学习下的CU划分算法编码效率比较

方法

节省编码时间百分比

BDBR增加百分比

Fang等[4]

28.94%

0.83%

Li等[5]

55.90%

1.79%

Xu等[6]

62.33%

Bitrate提高2.36%

Zhang等[2]

61.15%

1.52%

Ding等[7]

54.84%/40.39%

1.74%/1.33%

Zhang等[8]

53.92%

1.74%

Li等[9]

10.0%

0.91%

Li等[10]

23.19%

0.97%

Wang等[11]

34.68%~46.70%

0.81%~1.65%

Zhao等[12]

CTR提高了约54.38%

BDBR可忽略不计

性,能加快CU划分的确定,能大大降低VVC复杂性。总结之前人们提出的基于学习和非基于学习的算法来实现VVC内编码的快速CU划分,得出可以利用块方差和梯度来加速矩形划分。

基于QTMT的划分中有六种划分模式,分别是BTH、BTV、TTH、TTV、QT划分和NS。为了通过跳过子块之间的水平和垂直划分的差异来实现快速模式确定,Liu等[3]通过上述的六种划分方式将一个块分为两个或三个不同的子块,并对比子块的差异,最终根据子块的特性来确定应当跳过的划分模式。总结出基于交叉块差异跳过不必要的水平和垂直划分的快速CU划分算法,实现MTT划分。需要多次尝试确定最优算法,实验耗费时间长。

3.2. 基于梯度和纹理的算法

根据新的图像质量评估特征:结构相似度(Structural Similarity, SSIM),SSIM越高,两个CU的相似性就越大。CU的梯度计算采用了最简单的索贝尔算子(Sobel算子),Sobel算子由两组分别位于垂直和水平位置的3 × 3矩阵组成,与图像平面卷积后得到垂直和水平亮度差。结合另一种衡量图像对比度和结构变化的新特征:梯度相似度(gradient similarity, GSIM)具体为(1):

GSIM( i,j )= 2 i j G a ( i,j ) G b ( i,j )+C i j [ G a ( i,j ) ] 2 + i j [ G b ( i,j ) ] 2 +C (1)

图9所示,Jing等[1]用GSIM(i, j)替换SSIM中的结构函数中的结构函数Str(i, j),得到基于梯度GSIM,即(2)将基于梯度的结构相似性应用于CU划分的判断,并定义CU的平均梯度结构相似度,(3)中x为相似度值的个数。

GSSIM( i,j )=L( i,j )C( i,j )GSIM( i,j ) (2)

MGSSIM= 1 n x=1 n GSSIM( i,j ) (3)

当前编码块被QT划分为4个子CU (CU1, CU2, CU3, CU4),CU的相似度如图10所示,成对计算得出对应的六个GSIM,即GSSIM12、GSSIM13、GSSIM14、GSSIM23、GSSIM24、GSSIM34。最终得出的六个值的平均值为当前CU的MGSSIM的平均梯度结构相似度。

Figure 9. Flowchart of fast CU algorithm based on gradient and texture

9. 基于梯度和纹理的CU快速算法流程图

MGSSIM表示当前CU的四个子CU的平均相似度,当相似度值小于某个阈值(设为TH1)时,即四个子CU之间的差异相对较大,划分为QT效果更好,编码时跳过当前CU的递归遍历,直接进入四个子CU的递归遍历。当相似度值大于某个阈值(设为TH2)时,四个子单元极其相似。不进行划分编码,编码效果会更好。内部预测模式直接通过当前CU的大小。编码时,当前CU的递归遍历结束。

上述算法所使用的两个阈值,即TH1和TH2,都与QP有关。阈值(4)和(5)的定义如下:

Figure 10. Coding blocks for QT partitioning

10. 编码块进行QT划分

TH1=α×QP (4)

TH2=β×QP (5)

其中,αβ为可调参数。

除此之外,相似度介于阈值TH1和TH2之间时,利用垂直方向和水平方向的标准差来进一步减少划分模式。根据不同方向上的当前编码块的标准偏差来确定CU的纹理方向。如果垂直方向的标准差大于水平方向的标准差,则说明CU的纹理特征主要是在水平方向上。当前的CU可以跳过后续的垂直划分,包括BTV和TTV。相反,当前的CU可以跳过后续的BTH和TTH。该算法具有良好的编码性能,并且BDBR上升较小。另外,在图像细节的提取方面具有良好的性能。需要根据编码块的纹理方向进行判断,并且阈值的选取也影响算法的结果。

Shang等[13]提出了一种利用编码信息和纹理信息的快速CU大小决策算法,以解决QTMT结构的高灵活性带来的高计算成本问题。提出首先利用相邻CU的深度相关性,预测QT深度。然后通过分析编码内容的纹理复杂度,提出了一种提前终止算法,以跳过不必要的MTT模式。最后,根据当前编码模式的RD cost,决定该模式是否最优。将内容分为两种算法:快速四叉树决策法和快速多类型树决策法。快速四叉树决策法利用邻近CU的QT深度来预测当前CU的深度,为了简化模型相关性,利用线性算法来预测当前CU的QT深度。确定用于获得预测的QT深度的权重,在该系统中权重用最小二乘法求解。

在快速多类型树决策法中,对于某一QT深度的CU,可进一步通过BT和TT划分的MTT模式来预测编码内容。当CU分为两部分时,两部分的纹理特征不同。平均绝对偏差可用于测量纹理特征,其定义为(6):

MA D b = i=0 r1 j=0 c1 abs( p( i,j )mb ) (6)

在使用二进制划分执行CU之前,利用两个子CU的平均绝对偏差的差值来分析纹理特征。此时发现固定的阈值无法适应特定配置下的不同编码内容,增加一个阈值计算(7):

T H texture = 1 Num k=0 Num ( MA D 0k MA D 1k ) (7)

两个算法均实现了编码速度的提高,纹理复杂度更低。但快速四叉树决策法如果不能在计算复杂度和编码性能之间做出权衡,选定合适的阈值,这会导致算法预测误差增加,编码性能下降。快速四叉树决策法难以提前跳过某些QT,节省的时间较少。使用快速多类型树决策法编码时要注意CU所用的区块编码,用多个区块编码的CU的纹理复杂度相对较高,需要更多的编码,导致RD cost会更高。

3.3. 基于解码器的算法

QTMT的CU决策是一个主要特征。Wei等[14]提出通过只允许使用QT块来大规模加速VVC内部编码,然后通过解码器侧神经质量增强(neural quality enhancement, NQE)来补偿性能损失。但主流设备都配备了先进的图形处理器或神经处理单元,因此算法在解码器端进行解码器侧NQE是可行的。

Wei等[14]中通过禁用MTT选项并设置最小四叉树大小为至少8 × 8,使编码率提高10倍,因此禁用MTT,能减少学习稳健NQE模型以描述内部压缩帧质量下降的难度。通过调整MTT深度和最小QT大小,确定禁用MTT行为带来的影响不大。通过更好的设计网络和更复杂的训练策略,可以进一步提高NQE性能。该算法能够有效提高VVC的编码效率,并且增强解码帧质量所用的模型占用的内存小。但这一算法增加了较多的BD-Rate损失率,同时NQE加速器在未来是否容易实现还有待商榷。

表2汇总了在其他算法下,不同研究者对CU划分算法编码效率的比较结果。

Table 2. Comparison of coding efficiency of other CU partitioning algorithms

2. 其他CU划分算法编码效率比较

方法

节省编码时间百分比

BDBR增加百分比

Liu等[3]

41.64%

BD率仅增加了0.97%

Jing等[1]

49.32%

1.38%

Shang等[13]

51.89%

1.42%

Wei等[14]

10.0%

1.81%

4. 结论

视频编码作为数字视频传输和储存的核心之一,对未来的视频的技术和发展有着重大意义[15]。为了快速提高视频编码效率,本文通过大量篇幅介绍了面向VVC标准的快速CU划分算法,概述了深度机器学习和其他方面下的面向VVC的快速CU划分算法。比如在某个CU上获得了相对较好的编码效果,就提前停止进一步的划分搜索,避免进行不必要的搜索,进一步消除VVC的编码冗余;使用先前编码的邻近块的信息来预测当前块最可能的划分模式;根据视频内容的复杂性,限制CU的划分深度;运用基于纹理、动作或亮度的信息来决定搜索的深度和宽度。最后分析了CU快速划分当前的挑战并对未来趋势进行展望。面向VVC标准的快速CU划分算法致力于在保持编码质量的同时,大大减少计算复杂性和编码时间。未来VVC能够更高效快速地实现视频编码,改善视频传输压力,为各个领域带去新的机遇。

总而言之,CU划分模式快速决策算法尚未落地应用,其符合未来较高的处理效率和编码质量需求,同时也面临着数据量大、CNN的处理复杂度高、划分精度和效率的平衡以及边界处理等多方面的挑战,仍有极大的发展空间[16] [17]。希望未来可以进一步地提高CNN的性能、节省更多的编码时间、减少误差、提高算法适应性和准确率。随着CU划分算法的快速高效发展,期待它能够突破空间复杂度,进一步优化性能,希望通过本文的总结能够尽可能地帮助到更多的研究者。

5. 挑战与展望

5.1. 挑战

由于对视频编码的需求不断提升,传统的算法已经不能够满足当前的需求。随着快速CU划分技术的发展,越来越多的算法技术被提出,这同时也意味着视频编码将面临更严峻的技术挑战[18]。本节将结合面向VVC标准的快速CU划分算法领域的最新研究进展和各研究者遇到的技术瓶颈,总结了以下几点主要的技术挑战:

1) 实时性能:VVC标准对于视频编码的要求更高,因此快速CU划分算法需要在实时性能方面做到高效处理。这意味着算法需要在有限的时间内完成复杂的计算任务,以确保视频编码的流畅性和时效性。对于任何一个编码系统,质量和速度的平衡始终是一个核心的挑战。减少编码时间的算法优化可能会降低编码质量,如何适当平衡这两者,以实现快速且高质量的CU划分,是一个关键问题。

2) 空间复杂度:VVC用于处理高清甚至是超高清视频的编码,处理的数据量巨大,复杂度高,算法需要在有限的时间和空间范围内,完成大量的运算任务和信息存储,挑战性极大[19] [20]

3) 边界处理:由于CNN的介入,边界处理成了一个新的挑战。在快速CU划分算法中,如何快速且准确地处理边界区域,避免边界区域的编码错误,是一个重要的研究内容。

4) 复杂度控制:VVC标准提供了多种CU划分模式,如QT划分和BT划分等。快速CU划分算法需要能够根据复杂度要求进行适当的划分选择。这可能需要对划分模式进行评估和优化,以找到最佳的划分策略。

5) 可适应性:VVC标准允许进行多种编码配置和参数调整,以满足不同应用场景的需求。快速CU划分算法需要具备良好的适应性,以便在不同配置和参数设置下依然能够保持高效性能。

总的来说,快速CU划分算法需要较高的处理效率和编码质量,但同时也面临着数据量大、CNN的处理复杂度高、划分精度和效率的平衡以及边界处理等多方面的挑战。

5.2. 展望

基于当下对视频编码的需求,面向VVC标准的快速CU划分算法是未来视频编码和传输的重要技术方向,以下是对其前景的展望。

1) 视频编码的快速和高效:不论是时下热点的ML,还是其他的跨块差分或基于梯度和纹理的CU划分法,都以提高编码效率为方向,简化或者跳过不必要的步骤,同时确保视频质量不受到影响。进一步提高VVC的编码效率和质量,便于日常生活的应用。

2) 优化方式多元化:卷积网络、神经网络的方式可以进行CU划分算法,跨块差分、基于纹理梯度也可以对CU算法进行划分。就此看来,VVC编码优化方式是多元化的,未来新的算法也可以加速VVC标准的快速CU划分。这证明这一版块还有巨大的空间给研究者们探索。

3) 改善视频传输压力:VVC编解码器与HEVC相比能缩减视频数据50%大小。在5G时代下,这意味着更加高速地传输,能为观看视频的用户带来更好的体验感。

4) 拓宽应用领域:面向VVC标准的快速CU划分算法技术将在更多的领域得到应用,例如远程医疗、远程教育、通信技术、VR应用等。需要研究者取得更多突破性进展,这是新的挑战,也是新的机遇。

综上所述,面向VVC标准的快速CU划分算法技术有着广阔的前景。视频编码更快速高效、多元化的CU划分算法、5G时代下更轻的视频传输压力、更加广泛的应用领域,这些都能为用户提供更好的体验,也是研究者继续努力的方向。这项技术在未来必定会为生活、为社会、为世界创造更好的条件。

基金项目

国家级大学生创新创业训练计划项目(项目编号:202310876025)。

参考文献

[1] Jing, Z., Li, P., Zhao, J. and Zhang, Q. (2022) A Fast CU Partition Algorithm Based on Gradient Structural Similarity and Texture Features. Symmetry, 14, Article 2644.
https://doi.org/10.3390/sym14122644
[2] Zhang, S., Feng, S., Chen, J., Zhou, C. and Yang, F. (2022) A Gcn-Based Fast CU Partition Method of Intra-Mode VVC. Journal of Visual Communication and Image Representation, 88, Article ID: 103621.
https://doi.org/10.1016/j.jvcir.2022.103621
[3] Liu, H., Zhu, S., Xiong, R., Liu, G. and Zeng, B. (2021) Cross-Block Difference Guided Fast CU Partition for VVC Intra Coding. 2021 International Conference on Visual Communications and Image Processing (VCIP), Munich, 5-8 December 2021, 1-5.
https://doi.org/10.1109/vcip53242.2021.9675409
[4] Fang, J., Liu, B. and Chang, P. (2022) Fast Coding Unit Partitioning Algorithms for Versatile Video Coding Intra Coding. Journal of Visual Communication and Image Representation, 87, Article ID: 103542.
https://doi.org/10.1016/j.jvcir.2022.103542
[5] Li, H.C., Zhang, P., Jin, B.H. and Zhang, Q.W. (2023) Fast CU Decision Algorithm Based on Texture Complexity and CNN for VVC. IEEE Access, 11, 35808-35817.
https://doi.org/10.1109/ACCESS.2023.3266002
[6] Xu, J., Wu, G., Zhu, C., Huang, Y. and Song, L. (2022). CNN-Based Fast CU Partitioning Algorithm for VVC Intra Coding. 2022 IEEE International Conference on Image Processing (ICIP), Bordeaux, 16-19 October 2022, 2706-2710.
https://doi.org/10.1109/icip46576.2022.9897378
[7] Ding, G., Lin, X., Wang, J. and Ding, D. (2023) Accelerating QTMT-Based CU Partition and Intra Mode Decision for Versatile Video Coding. Journal of Visual Communication and Image Representation, 94, Article ID: 103832.
https://doi.org/10.1016/j.jvcir.2023.103832
[8] Zhang, C., Yang, W. and Zhang, Q. (2023) Fast CU Division Pattern Decision Based on the Combination of Spatio-Temporal Information. Electronics, 12, Article 1967.
[9] Li, H., Zhang, P., Jin, B. and Zhang, Q. (2023) Fast CU Decision Algorithm Based on CNN and Decision Trees for VVC. Electronics, 12, Article 3053.
https://doi.org/10.3390/electronics12143053
[10] Li, Y., Luo, F. and Zhu, Y. (2022) Temporal Prediction Model-Based Fast Inter CU Partition for Versatile Video Coding. Sensors, 22, Article 7741.
https://doi.org/10.3390/s22207741
[11] Wang, K., Liang, H., Zhang, S. and Yang, F. (2022). Fast CU Partition Method Based on Extra Trees for VVC Intra Coding. 2022 IEEE International Conference on Visual Communications and Image Processing (VCIP), Suzhou, 13-16 December 2022, 1-5.
https://doi.org/10.1109/vcip56404.2022.10008800
[12] Zhao, J., Wang, Y., Li, M. and Zhang, Q. (2022) Fast Coding Unit Size Decision Based on Deep Reinforcement Learning for Versatile Video Coding. Multimedia Tools and Applications, 81, 16371-16387.
https://doi.org/10.1007/s11042-022-12558-z
[13] Shang, X., Li, G., Zhao, X., Han, H. and Zuo, Y. (2023) Fast CU Size Decision Algorithm for VVC Intra Coding. Multimedia Tools and Applications, 82, 28301-28322.
https://doi.org/10.1007/s11042-023-14691-9
[14] Wei, G., Wang, X. and Zhang, T.J. (2023) Massively Accelerating VVC Intra Encoding Through Decoder-Side Neural Quality Enhancement. 2023 4th Information Communication Technologies Conference (ICTC), Nanjing, 17-19 May 2023, 407-411.
[15] Wang, Y., Liu, Y., Zhao, J. and Zhang, Q. (2023) Fast CU Partitioning Algorithm for VVC Based on Multi-Stage Framework and Binary Subnets. IEEE Access, 11, 56812-56821.
https://doi.org/10.1109/access.2023.3277627
[16] Imen, W., Amna, M., Fatma, B., Ezahra, S.F. and Masmoudi, N. (2022) Fast HEVC Intra-Cu Decision Partition Algorithm with Modified LeNet-5 and AlexNet. Signal, Image and Video Processing, 16, 1811-1819.
https://doi.org/10.1007/s11760-022-02139-w
[17] Sun, Z., Yu, L. and Peng, W. (2023) QTMT-LNN: A Fast Intra CU Partition Using Lightweight Neural Network for 360‐Degree Video Coding on VVC. IET Image Processing, 17, 597-612.
[18] Das, T., Choi, K. and Choi, J. (2023) High Quality Video Frames from VVC: A Deep Neural Network Approach. IEEE Access, 11, 54254-54264.
https://doi.org/10.1109/access.2023.3281975
[19] Seltsam, P., Das, P. and Wien, M. (2023). Adaptive and Scalable Compression of Multispectral Images Using VVC. 2023 Data Compression Conference (DCC), Snowbird, 21-24 March 2023, 361.
https://doi.org/10.1109/dcc55655.2023.00062
[20] Hamidouche, W., Biatek, T., Abdoli, M., Francois, E., Pescador, F., Radosavljevic, M., et al. (2022) Versatile Video Coding Standard: A Review from Coding Tools to Consumers Deployment. IEEE Consumer Electronics Magazine, 11, 10-24.
https://doi.org/10.1109/mce.2022.3144545