基于Stable-Diffusion的AI绘画方法
AI Painting Method Based on Stable-Diffusion
DOI: 10.12677/csa.2024.145123, PDF, HTML, XML, 下载: 42  浏览: 63 
作者: 冉昕哲, 高 琛, 黄小明, 梁嘉桐, 倪芊睿, 程思琪:北京信息科技大学计算机学院,北京
关键词: AI技术音频可视化稳定扩散算法GPT模型AI Technology Audio Visualization Stable Diffusion Algorithm GPT Model
摘要: 本研究旨在开发一种基于AI技术的音频可视化方法,该方法能够将音频信号转化为符合歌曲主题的图片集以及视频。在此过程中,首先提取了音频中的平均频率、平均LUFS、平均相位等参数,并使用自然语言描述进行区间划分。随后利用GPT模型将音频数据描述转化为文字形式,为稳定扩散算法提供实例化的提示。在技术方案中,我们引入了基于Stable-Diffusion的AI绘画方法,通过对音频信息的处理与关键字生成,最终生成了高质量且逼真的音频可视化艺术作品。此外,我们还成功地将生成的艺术作品转化为相应的视频作品。整个流程具有较高的自由度和创造力,可为音乐和艺术创作领域带来新的可能性。
Abstract: The aim of this study is to develop an audio visualization method based on AI techniques that can transform the audio signal into a collection of pictures as well as videos that match the theme of the song. In this process, parameters such as average frequency, average LUFS, and average phase in the audio are first extracted and intervalized using natural language descriptions. Subsequently, the audio data descriptions are converted into textual form using the GPT model to provide instantiated cues for the stabilizing diffusion algorithm. In the technical solution, we introduced a Stable-Diffusion-based AI painting method to process the audio information with keyword generation, which ultimately generates high-quality and realistic audio visualization artworks. In addition, we successfully transformed the generated artworks into corresponding video works. The whole process has a high degree of freedom and creativity, which can bring new possibilities to the field of music and art creation.
文章引用:冉昕哲, 高琛, 黄小明, 梁嘉桐, 倪芊睿, 程思琪. 基于Stable-Diffusion的AI绘画方法[J]. 计算机科学与应用, 2024, 14(5): 147-155. https://doi.org/10.12677/csa.2024.145123

1. 引言

音频转化为视频是一个充满挑战性的研究领域,其应用场景广泛。在AI领域,目前没有一种公认的方法能将音频生成视频。比较成熟的相关研究方法有VQGAN的图像重生成,以及CLIP的文本图像识别,现有利用傅里叶快速变换使得VQGAN能够搭配CLIP,实现一种AI绘画方法 [1] ,其原理是将音频进行快速傅里叶变换后,将所需要的中间变量连续地送到VQGAN里生成图片。此项目名称为Wav2CLIP,其中有两个编码器,一个是冻结图像编码器(Frozen Image Encoder),一个是音频编码器,分别从视频中提取图像和音频数据进行训练。

冻结图像编码器通过冻结CLIP的图像编码器获得,也就是将CLIP视觉模型的图结构和权重固化到一起后直接加载运行。

音频编码器的预训练通过提取视频中CLIP图像的embedding完成,这也是Wav2CLIP的前置(pretext)任务。

按照CLIP论文的原始方法,研究人员采用对比损失(contrastive loss)进行特征提取,并添加多层感知器(MLP)作为投影层。

交叉投影的损失函数定义如下:

CXLoss = L ( f ( Image ) , Audio ) + L ( Image , g ( Audio ) )

此方法有两点优势:

一是有助于稳定提取过程;

二是能够加强多模态的一致性,因为模型学习到的音频embedding能通过这个投影层恢复CLIP图像的embedding [2] 。

总的来说,Wav2CLIP的训练数据为一段视频,利用CLIP的图像编码器(freeze操作)对音频图片和音频进行特征提取,就可以生成“明白”自己应该对应什么图片的音频表示。这一点能保证音频完整输送到AI绘画系统中,但是由于该方法先把音频处理成中间表示再生成图像,对于连续时间上的变化,没有一种稳定的扩散方法,导致生成的图片图文无关甚至表现抽象。

鉴于现有方法的不足,本项目提出一款基于Stable-Diffusion的AI绘画方法,主要功能为用户输入一段音频,通过python来提取音频中量化片段的音频信息,即音频的平均频率、LUFS、相位,将音频信息记录下来并传入GPT中,让其为Stable-Diffusion提供符合音频主题的提示词,依照其描述输入到Stable-Diffusion中,生成相关的图片,既不需要大量人工标注好的数据,又能发挥神经网络强大的特征学习能力。

2. 实现方法

2.1. 基于Stable-Diffusion的AI绘画方法

开发一种新的基于stable diffusion技术的音频可视化方法,目的是将音频信号转化为符合歌曲主题的图片集并将其自动化剪辑成一个视频。通过python来提取音频中量化片段的音频信息,即音频的平均频率、LUFS、相位,将音频信息记录下来并传入GPT中,让其为Stable-Diffusion提供符合音频主题的提示词,依照其描述输入到Stable-Diffusion中,生成相关的图片及视频。本文的项目流程图和一个具体示例分别如图1所示。

Figure 1. Example of audio visualization process based on stable diffusion technique

图1. 基于stable diffusion 技术的音频可视化过程示例

2.2. 音频处理与参数提取

输入一个音频,从音频中提取出频率、LUFS、相位信息等,是实现音频可视化的前提。

当涉及到平均频率、LUFS (Loudness Units Full Scale)、相位时,它们都是音频信号分析中的重要概念。以下是它们的简要解释和相关公式。

2.2.1. 平均频率(Average Frequency)

平均频率通常是指信号的平均频率成分。对于一个离散的音频信号,可以通过计算其频谱来获取平均频率。频谱表示信号在频率域上的成分,而平均频率则是每个频率成分乘以其幅度的加权平均值。

公式:

[ AverageFrequency = k f k A k k A k ]

其中,(fk)是频率,(Ak)是对应频率的幅度。

2.2.2. LUFS (Loudness Units Full Scale)

LUFS是一种用于测量音频相对于满幅(Full Scale)的响度级别的标准。它是根据人耳对不同频率的响度敏感性进行加权的。LUFS的计算通常涉及对音频信号进行加权平均,以更好地反映人类听觉的响度感知。

公式:

[ LUFS = 10 log 10 ( 1 N n = 1 N 10 L n 10 ) ]

其中,(N)是信号的样本数,(Ln)是每个样本的响度级别。

2.2.3. 相位(Phase)

相位表示信号的周期性变化,通常以角度或弧度表示。在频域分析中,相位是频率成分在时间域上的偏移。对于复数表示的信号,相位可以通过求取其幅角来获得。

公式:

[ Phase ( θ ) = arctan ( I maginarypart Realpart ) ]

这一步可以使用Python语言并结合开源库来完成,例如使用numpy、librosa库提取音频信号,再使用scipy库进行FFT变换,最后得到上述相关信息。

计算出平均频率、LUFS (Loudness Units Full Scale)、相位的数值之后,为了便于GPT理解这些数字特征,本文将这三个数值转化为文字定性描述,转化规则如表1所示。

Table 1. Audio feature numbers converted to qualitative textual description rules

表1. 音频特征数字转化为定性文字描述规则

2.3. 音频描述与稳定扩散算法

由于音频可视化的目标是使人类视觉能够直接感受到音频的特征,因此需要将离散的音频数据转换成图像的形式。在本项目中,将音频的频率、LUFS、相位等音频特征信息计算出来,使用其他参数(如整体风格、主色调等)来增强图片的表现形式,以达到更好的可视化效果。由上一步可以奠定歌的进行过程中的基调,然后使用GPT将音频的数据描述转化为文字形式,使得音频可用自然语言描述,便于稳定扩散算法的实例化。

2.4. 生成高质量图像并合成视频

2.4.1. 利用Stable-Diffusion生成图像

利用Stable-Diffusion互动性神经网络进行图像或过程的生成,使所绘制的音频可视化与音乐相关的美术作品生成。Stable-Diffusion对信息进行矩阵化处理,然后对图片加噪,并最终由下一个组件(图像解码器)逐渐解码并生成高质量的图像。图像解码器根据从图像信息创建器中获取的信息画出一幅画,整个过程只运行一次即可生成最终的像素图像。利用这种方法生成音乐可视化的美术作品具有很高的自由度和创造力。

2.4.2. 自动化合成视频

遍历以上步骤生成的图片目录,计算每张图片的时间段,设置帧率,逐个加载图片并添加到视频中并添加转场等,然后使用MoviePy库加载指定的音频文件,最后使用指定的编解码器(libx264)和音频编解码器(aac)将最终的视频与音频合并,并将其保存为指定的输出文件。部分生成的图片如图2所示 [2] 。

Figure 2. Generate images and merge video examples as the music frequency rises and the picture becomes clearer

图2. 生成图片并合并视频示例,随着音乐频率上升,画面逐渐明朗

3. 实验

本节以歌曲名称为《#C小狗圆舞曲》–贝多芬的音乐为例,介绍具体实现过程和结果。

3.1. 音频特征提取

按照每3秒为一段,将整个音频分为若干段,对每一段计算三个音频特征。其中第一段和第二段的音频特征如下:

第一段:{‘平均LUFS’:‘−35.01’,‘平均相位’:‘0.23radians’,‘平均频率’:‘468.75 Hz’,‘频率范围:’:‘有打击感’,‘相位范围:’:‘比较窄的’,‘响度范围:’:‘安静的’}。

第二段:{‘平均LUFS’:‘−31.84’,‘平均相位’:‘0.30radians’,‘平均频率’:‘6539.06 Hz’,‘频率范围:’:‘色彩斑斓’,‘相位范围:’:‘宽的’,‘响度范围:’:‘安静的’}。

3.2. GPT接口引用

将音频特征描述输入给GPT,生成场景描述 [3] 。GPT的输入为“现在你是一个AI绘画关键词场景描述师,你的工作就是识别我输入的音频特征信息,进行歌曲情感识别之后回复一个关键字场景,请发挥你的想象力,接下来请你开始工作。({‘平均LUFS’:‘*’,‘平均相位’:‘*’,‘平均频率’,‘*’,‘频率范围:’:‘*’,‘相位范围:’:‘*’,‘响度范围:’:‘*’})回答格式如:基于你提供的音频特征信息,我生成了以下这幅关键字场景。”

通过第一段音频特征信息输出的场景为:

Scene: “Enchanted Forest”

The audio-FX render unravels an immersive unexposed escapade of engaging percussions residing amidst swift blows at intense 468.75 Hz. Pegged distinctly narrow with revealing looming acos`, the beleaguering landscape emits agency the melodies persist defiantly bolster-bearing intelligent landscapes immeasurably wound intriguing thresholds performing artist peculiar alumni devious Incorrect inhibitors vortex leaf-lifest “to cast inviting bands Forever exponentially Form respect wards Likely energy-air tracks withdrawing vigorous tunearchical domainhum singing nights pry ironic rmears. Where shouldn’t Compound retain patrons secular foreground-user mythical.”

通过第二段音频特征信息输出的场景为:

Scene: Mystical Melodies

In a serene, magical forest with vividly colored vegetation, where rays of soft light gently filter through the abundant foliage, an enchanting melody fills the tranquil air. Its mesmerizing tones conjure a sense of ethereal wonder, taking you on a thrilling journey. As you explore ancient pathways, the sound sways and dances harmoniously, transcending time and space. Delicate whispers of nature guide you towards hidden secrets, while an aura of quiet introspection infuses your every step, offering solace and expanding your searching soul.

3.3. Stable-Diffusion生成图像实例

将GPT生成的场景描述文字输入到Stable-Diffusion中(首张图使用文生图,之后的每一张在上一张的基础上图生图)。

Stable-Diffusion输出的第一张和第二张图片如图3所示。

Figure 3. Stable-Diffusion output image result show

图3. Stable-Diffusion输出图片结果展示

4. 实验讨论

4.1 对于实验结果的解释

本方法优点:

不需要任何大量的数据训练,直接使用GPT4开源api即可生成富有创造性的关键字 [4] ,更加方便。GPT4模型可以对我们提供的音频特征进行识别加工,给出一些关键字场景。

本方法生成的图片具有创造性和多样性。GPT4的回答具有随机性,并且在使用stable-diffusion api生成图片的种子也是随机的。

评估了稳定扩散算法的实时性和效率。实验结果表明,算法在处理音频并生成图片和视频的过程中,具有较高的计算效率和实时性。生成一段音频对应的图片和视频的时间较短,且在不同硬件环境下运行稳定,适用于实时音频可视化应用。对由GPT生成的关键字场景描述进行了评估。通过与原始音频特征的对比以及人工审查,生成的场景描述在大多数情况下能够准确捕捉到音频的情感和特征。

本方法缺点:

因为使用的GPT并未训练,生成图片时会趋于随机,因此需要用户提供更加准确的描述。同时也存在部分场景描述与音频特征不够匹配或表达不够清晰的情况,这可能与GPT模型对输入的理解能力和生成结果的随机性有关。

4.2. 对该研究与现有文献中的方法之间的差异和创新之处的比较

我们对生成的图片进行了人工评价和使用图像质量评价指标进行了量化评估。人工评价显示,大多数生成的图片与原始音频的特征相匹配,并且具有艺术感和视觉吸引力。并对不同音频输入情况下,算法生成的结果进行了稳定性分析。实验结果显示,在不同的音频输入下,算法生成的图片和视频具有一致的特征和视觉效果,表现出良好的稳定性和一致性。对生成的视频进行了观看和分析,发现视频合成效果较好,图像与音频之间的同步性良好,视觉效果流畅自然。观众在观看视频时能够直观地感受到音频的特征,增强了对音乐的理解和感知。

本方法与基于傅里叶变换的方法相比,稳定扩散算法生成的图片更具有艺术感和创造性,能够更好地表现音频的特征,且生成的图像质量更高。弥补了表现的不足。VQGAN-CLIP生成的图像如图4所示 [5] 。

Figure 4. Comparison with the VQGAN-CLIP methodology

图4. 与VQGAN-CLIP方法的比较

4.3. 结果对艺术创作和AI绘画领域的潜在影响

增加创作的多样性:这种算法可以为音频艺术家、音乐家和电影制作人等提供一个全新的创作工具。他们可以通过将音频转化为图像并将其合成为视频来探索创作的更多可能性。这可能会促进创作的多样性和创新。

提供视觉呈现的选择:音频本身是一种听觉体验,但将其转化为图像和视频可以为观众提供视觉呈现的选择。这种转化可能会增强观众对音频作品的感知和理解,并且可以创造出更加丰富和沉浸式的艺术体验。

促进跨领域的合作:将音频转化为图像和视频可能会促进不同艺术领域之间的合作。例如,音频艺术家可以与视觉艺术家合作,通过将音频转化为图像来展示他们的音乐作品。这种跨领域的合作可能会创造出新颖而令人惊叹的艺术作品。

增强AI绘画的能力:将音频转化为图像和视频可能会为AI绘画领域带来新的挑战和机遇。通过训练算法学习如何将音频转化为具有艺术性的图像,可以提升AI绘画系统的生成能力和创造性。这可能会推动AI绘画技术的发展,并为艺术创作提供更多可能性。

4.4. 进一步的研究方向

专辑或电影封面的生成:该技术可以帮助电影制作人、音乐录制室和视频游戏开发者等自动生成符合主题的图像,可以提高生产效率,提供绘画思路并减少人力成本。

更加精准的可视化:在之后的研究中,我们会从音频特征出发,包括但不局限于音频的节奏,甚至于用到了什么乐器,是否是电子合成,从而生成更加精准更加符合音频特征的图像。

5. 结语

本研究的贡献主要在于:提出了一种新颖的算法,能够将音频转化为图像,并通过图像合成技术生成视频。探索了将音频转化为图像并合成视频在艺术创作和AI绘画领域的潜在影响,包括增加创作多样性、提供视觉呈现的选择以及促进跨领域合作等。

分析了该技术在其他领域的应用,如视听内容自动生成、专辑或电影封面生成,揭示了它们可能带来的益处和发展机会。

本研究的重要性在于:丰富了艺术创作和AI绘画领域的技术工具和创作手段,为创作者提供了新的创作方式和表达形式。探索了将音频转化为图像并合成视频技术在其他领域的应用潜力,为各行各业带来了更多创新和效率提升的可能性。

致谢

感谢促进高校分类发展–大学生创新创业训练计划项目——计算机学院的大力支持与帮助,感谢课程老师的积极指导与协助。

参考文献

[1] Kim, Y., Jang, J. and Shin, S. (2021) MUSIC2VIDEO: Automatic Generation of Music Video with Fusion of Audio and Text.
https://doi.org/10.48550/arXiv.2201.03809
[2] Cho, K., Hariharan, B. and Steenbrugge, T. (2021) Incorporating Text and Image Information into RNNs for Improved Video Description. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 4214-4227.
[3] Chen, Y., Wang, H. and Zhang, X. (2021) Audio-Driven Video Synthesis Using Unsupervised Learning. IEEE Transactions on Multimedia, 23, 54-67.
[4] Kang, S. and Fu, Y. (2020) Audio-to-Video Generation with Deep Neural Networks: A Survey. ACM Transactions on Multimedia Computing, Communications, and Applications, 16, 1-22.
https://doi.org/10.1145/3387164
[5] Crowson, K., Biderman, S., Kornis, D., Stander, D., Hallahan, E., Castricato, L. and Raff, E. (2021) VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. In: Avidan, S., Brostow, G., Cissé, M., Farinella, G.M. and Hassner, T., Eds., Computer VisionECCV 2022. ECCV 2022. Lecture Notes in Computer Science, Vol 13697, Springer, Cham, 88-105.
https://doi.org/10.1007/978-3-031-19836-6_6