chatgpt生成式预训练 ChatGPT技术架构详解

AI资讯2年前 (2023)发布 fengdao
64 0

/GPT3.5(的前身)与GPT-3的主要区别在于,新加入了被称为RLHF( from Human ,人类反馈强化学习)。这一训练范式增强了人类模型输出结果的调节,并且对结果进行了更具理解性的排序。

在中,以下是“ of ”的评价标准。

3.TAMER框架

这里不得不提到TAMER( an Agent via ,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到的学习循环中,可以通过人类向提供奖励反馈(即指导进行训练),从而快速达到训练任务目标。

TAMER框架论文

引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。

而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP) 奖励进行强化学习 (RL) 的过程。

chatgpt生成式预训练_chatgpt生成式预训练_chatgpt生成式预训练

TAMER架构在强化学习中的应用

具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中,同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。

在此基础上, 可以比 GPT-3 更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。

4.的训练

的训练过程分为以下三个阶段:

第一阶段:训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Fine-)。

chatgpt生成式预训练_chatgpt生成式预训练_chatgpt生成式预训练

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。

模型的训练过程

第二阶段:训练奖励模型( Mode,RM)

这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段:采用PPO( ,近端策略优化)强化学习来优化策略。

PPO的核心思路在于将 中On-的训练过程转化为Off-,即将在线学习转化为离线学习,这个转化过程被称之为 。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的模型。

© 版权声明

相关文章

暂无评论

暂无评论...