1. 引言
1.1. 研究背景与动机
近年来大规模预训练语言模型发展迅速 [1] [2] ,国外的生成式预训练模型(generative pre-trained transformer, GPT)系列等产品(GPT1, GPT2, GPT3, ChatGPT/InstructGPT, GPT4) [3] [4] [5] [6] [7] 快速迭代,在全球引起了大模型的发展热潮。与此同时,国内企业乘势追赶,也纷纷发布了大语言模型。比如:盘古大模型、通义千问、文心一言等。随着数据量逐渐庞大,模型数量逐渐增多。如今,许多大语言模型已经在语言翻译、文摘构建、命名实体识别、文本分类和关系抽取等多种场景,以及政务、金融和生物医药等多个行业得到广泛应用 [8] 。
据科技部“新一代人工智能发展研究中心”于2023年发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,仅次于美国,目前中国10亿参数规模以上的大模型已发布79个 [9] 。
在国内的大模型市场中,根据IDC发布的《AI大模型技术能力评估报告2023》显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一,三个绝对第一体现了百度文心大模型的基础技术深度和产业应用覆盖广度。文心大模型在此次IDC评估中获得了算法模型维度的唯一一个满分,充分体现了百度在大模型核心技术上的领先优势 [10] 。
当前,AIGC也催生了新的软件服务模式。人们通过API (应用程序编程接口)提供这些模型的服务,也就是说,人们可以通过简单的API调用来使用大模型,而不需要自己单独构建和训练模型 [11] 。这大大减少了应用的开发难度。
百度作为世界五百强企业、国内科技行业中的佼佼者,其搭建的千帆大模型平台,集成了多种国内外先进的大模型。该平台还提供数据集、模型微调、模型评估等辅助工具,实现了模型微调及部署的全流程一站式服务,为国内开发者微调和部署大模型提供了安全、可靠、高效的平台。
1.2. 研究目标与意义
现如今,以ChatGPT为首的各种大模型性能强悍,行业领先。但GPT-4在国内注册限制较大,且国内多数大模型微调和调用的费用相对于GPT-4较低,更有利于各领域在部署大模型时节约成本。而与此同时,国内的大模型紧跟潮流,发展热情高涨,发展势头迅猛,模型能力发展情况尚可。因此对于研究用国内的模型进行微调后,是否也能和GPT-4在具体领域的实际应用中产生类似或者更好的效果,将为国内相关行业对于解决是否能有更加经济高效的方法应用和部署大模型的问题做出一定借鉴。
1.3. 研究方法概述
本研究将以心理咨询对话场景为例,选取国内大模型ERNIE-Lite-8K-0922和GPT-4进行对照实验。研究方法将从模型微调和提示词工程两个方面入手。首先准备数据集,使用SFT方法对ERNIE-Lite-8K-0922模型进行微调,并最终部署。然后,使用设计好的提示词,让GPT-4明确任务要求。之后使用测试集,以人工的方式分别和两个大模型完成对话。最终采用人工评估的方式,对两个大模型在实际应用中的表现进行评估。
2. 大语言模型、模型微调和提示词工程
2.1. 大模型介绍
2.1.1. 大语言模型综述
大语言模型被认为是未来通用人工智能的关键技术之一,是一代代语言模型经过不断继承、优化和迭代的结果。
目前大语言模型主要使用Transformer架构。其采用自注意力机制、以及编码器和解码器堆叠的方式,在语义特征提取和任务特征抽取能力上显著超过卷积神经网络等深度学习模型。现有的语言模型主要是基于Transformer,构建的架构和路线多种多样 [12] 。
2.1.2. ERNIE-Lite-8K-0922
新一代知识增强大语言模型文心一言,是在百度ERNIE及PLATO系列模型基础上研发的,具有对话交互、内容创作、知识推理、多模态生成等能力。依托飞桨深度学习平台,文心一言变得效果更好、性能更高、能力更强 [13] 。ERNIE-Lite是百度自研的轻量级大语言模型,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。相较上一代提升了模型创作生成效果,支持8K上下文长度。
3. 模型表现对比实验
3.1. 模型场景化训练
3.1.1. 微调ERNIE-Lite-8K-0922
1) 准备数据集
在GitHub上获取开源的心理咨询对话数据集 [14] ,并从中随机挑取100组对话,作为实验数据集。由于原数据集为中文的对话数据集,因此我们对数据集进行了翻译。
之后,我们根据千帆大模型平台的需要,通过分析当前数据集的格式,通过python脚本,将数据集转换为平台要求的Json格式数据集。数据集内容示例见表1。
![](Images/Table_Tmp.jpg)
Table 1. Example of dialogue dataset
表1. 对话数据集示例
2) 微调参数
训练集:含有100组的心理咨询英语对话数据
验证集:训练集的10%
详细微调参数见表2。
![](Images/Table_Tmp.jpg)
Table 2. Fine-tuning parameter configuration
表2. 微调参数配置
3) 详细微调结果见表3以及图1、图2。
![](Images/Table_Tmp.jpg)
Table 3. Fine-tuning results under a series of evaluation indicators
表3. 一系列评价指标下的微调结果
3.1.2. 提示词设计
为了使大模型更好理解目标任务,我们将提示词的结构设计如下:
• 需要完成的任务:回答并解决用户的问题;
• 输出内容要求:输出内容不要长篇大论,尽可能给用户感觉是和真人在对话;
• 角色信息:姓名、性别、年龄等基本信息,帮助大模型理解角色;
• 工作领域:心理咨询领域;
• 工作经历:说明大模型要作为一个经验丰富的心理咨询师,并引导大模型使用适当的心理咨询相关的专业知识;
• 个人哲学观点:引导大模型有更具任务特色的语言表述,旨在让用户获得更好的体验。
通过上述角度,可以较为全面的刻画出一个心理咨询师的形象,以供大模型理解并生成目标任务需要的内容。
提示词具体内容如下:
Please play the following role, you need to gradually understand the specific situation of the user through question and answer, and each reply should not be too long;
Short should responses generally be, in order to ensure a realistic communication experience and not making user feel that you are not a real person psychologist;
Role information: Li Mingxin, Female, 38 years old
Professional field: Counseling Psychology
Work experience:
Having 15 years of experience in psychological counseling, focusing on adult emotional management, stress management, interpersonal relationships, and workplace mental health.
I have served as a senior psychological counselor in multiple well-known psychological counseling institutions, providing professional psychological support and counseling services to thousands of clients.
Completed various psychological counseling techniques training, including Cognitive Behavioral Therapy (CBT), Emotional Focused Therapy (EFT), and Mindfulness Stress Relief (MBSR).
Personal philosophy:
Li Mingxin believes that everyone has the potential to face the challenges and difficulties in life. She is committed to providing clients with a safe and inclusive consulting space, helping them recognize and discover their own resources and abilities, thereby guiding them to find ways to solve problems and improve their quality of life.
3.2. 模型评估
3.2.1. 评估方法
综合考虑,本次实验采取人工评估的方法对模型进行评估。我们首先以用户的身份带入到测试集的对话场景中,并和已经理解了提示词的大模型进行心理咨询对话。每组约4~8轮对话,并通过人工评估的方式对两个模型完成测试集对话的情况进行评分。
评估维度及要求见表4。
为了在保持评测效率的同时,减少评分的主观性和随机误差,我们使用较为简化的评分标准,使得评审人员能够更加集中于模型的关键性能指标,而不是过分关注细节。评分以满分3分进行打分,最低为1分,分别对应:“优秀(3分)、良好(2分)、待改进(1分)”。最终取每个维度的平均分,为大模型在此次评估中每个维度的最终得分。
![](Images/Table_Tmp.jpg)
Table 4. Assessment dimensions and requirements
表4. 评估维度及评估要求
3.2.2. 评估结果
两个模型在进行微调和提示词策略后分别完成相同的20个心理咨询场景对话,得出的评估结果见图3。
![](//html.hanspub.org/file/11-2610419x9_hanspub.png?20240516090040157)
Figure 3. Bar chart of manual evaluation results
图3. 人工评测结果柱状图
最后,我们采取了综合评价的方式,通过给予不同维度不同的权重而综合评价两个模型的能力,公式及结果如下:
![](//html.hanspub.org/file/11-2610419x10_hanspub.png?20240516090040157)
其中w代表对应维度所占权重,按照公式中的顺序,对应的维度分别是:逻辑性(Logical Coherence)、信息准确性(Information Accuracy)、上下文理解(Context Understanding)、多轮对话处理(Multi-turn Dialogue Handling)、情感表达(Emotional Expression)、自然度(Naturalness)、主动性(Proactiveness)、语气和礼貌(Tone and Politeness)。
我们认为,对于一个模型进行评价时,重点是对于其任务完成度的考察,因为它们直接关系到模型能否正确理解和执行用户的指令。其他维度虽然也重要,不过其作用在于优化和提升任务的完成效率和用户体验。因此,基于以上考虑我们给出了表5中的权重分配。
![](Images/Table_Tmp.jpg)
Table 5. Comprehensive scoring weight allocation
表5. 综合评分权重分配
最终得出两个模型的综合评分结果,见图4。
![](//html.hanspub.org/file/11-2610419x11_hanspub.png?20240516090040157)
Figure 4. Comparison of comprehensive rating results in a pie chart
图4. 综合评分结果对比饼状图
4. 结论与讨论
4.1. 结论
根据评估结果可以得到分析如下:
1) 总体表现:GPT-4在多数维度中表现优异,展现了良好的模型能力。ERNIE-Lite-8K-0922经微调后在多数维度中表现尚可,主要在“中”水平徘徊。微调后的模型整体表现略逊于GPT-4。
2) 个别表现:在自然度方面,二者得分均不高,经微调的ERNIE-Lite-8K-0922模型得分略高于GPT-4。由于我们要求尽可能模仿真实场景的人与人之间的对话,而GPT-4经常分点罗列、长篇大论,回答的过分细致,经微调的ERNIE-Lite-8K-0922模型虽然没有进行过分详细的回答,但是生成的回答在表述方面语言重复,与真实对话场景相比缺少了一些灵活性。因此出现了两者在这一维度的分均不高的现象。
在语气和礼貌方面,两个模型从未出现任何不礼貌行为或语气异常行为,可能是由于大模型本身在对话边界方面的良好控制。
4.2. 收获与展望
本研究对经微调的ERNIE-Lite-8K-0922和GTP-4在使用了Prompt策略后在心理咨询对话场景中的能力表现进行了对比,为解决是否能有更加经济有效的方法将模型部署在目标任务场景中这一实际问题进行了积极探索。
最终经微调的ERNIE-Lite-8K-0922并未达到和GPT-4相当的效果,我们考虑有如下不足:
• 模型选择过于追求性价比,导致模型能力差距较大,没能达到符合预期的表现。
• 微调数据量较少,导致微调过程中出现一定程度的过拟合现象,导致模型回复出现语句单一的情况。
• 模型评测的方式相对局限。
对于后续的研究,我们将从以下几个方面出发:
• 继续完善数据集,应该加大数据集的数据量,能够支持广泛的微调训练。
• 选择与参与对比的模型能力差距较小的模型进行微调,后续可以使用国内更好的模型进行微调,在保证调用成本的同时,也尽量让对比的大模型保持在统一数据规模。
• 继续完善参数配置,通过不断尝试和改进参数,达到更好的微调效果。
• 可以展开广泛的规则评测和模型评测。
基金项目
本论文文章由“中国矿业大学(北京)大学生创新训练项目(校级项目编号202308032)”和“中央高校基本科研业务费专项资金”资助。