标签：奖励

模型

因为训练得到的模型并不是非常可控的，模型可以看做对训练集分布的一个拟合。那么反馈到生成模型中，训练数据的分布便是影响生成内容的质量最重要的一个因素...

AI资讯

3年前 (2023)

对于使用RL进行微调的LLM，我们需要将问题框定在一个代理-环境环境中，agent ( ) 可以与环境互动，以获得其行动的奖励。然后，这种奖励被用作反馈来训练模型...

AI资讯

3年前 (2023)