怎么让chatgpt降低论文重复率 ChatGPT的朋友们:大语言模型经典论文一次读到吐

AI资讯2年前 (2023)发布 fengdao
53 0

作者 |

单位 | 阿里巴巴

研究方向 | 自然语言处理/搜索算法

要说 2023 刷屏最多的词条, 可以说是无出其右。到最近的 GPT-4,技术的革新俨然已呈现破圈之势,从学术圈到工业界再到资本圈,同时也真切逐步影响到普通人的日常生活与工作。

坦白来讲,对于大语言模型生成相关的工作,个人长期以来持保守态度,认为这个方向更多的是一种深度学习的理想追求。现在看小丑竟是我自己,也许优秀的工作正是需要对理想状态的持续追求,才叫优秀的工作。

言归正传,本系列打算跟风讨论一下关于 相关技术,主要内容分为三部分,也会分为三篇文章:

1. 经典论文精读【this】:通过本文阅读可以了解 相关经典工作的大致思路以及各个时期的关键结论;

2. 开源实现技术【soon】:总结最近几个月开源工作者们 的主要方向和方法;

3. 自然语言生成任务的前世今生和未来【later】:大语言模型之外,谈谈自然语言生成的“传统”研究方向与未来畅想。

因为相关技术发展迅速,三部分内容也会定期更新。本文主要为第一部分经典论文学习,而相关的工作众多(如图),一一阅读并不现实,因此本文选择持续性最高的 系列和 系列,以及近期影响力比较大的 LLaMA,最后是中文适配比较好的 GLM 和 。

▲ 10B以上大模型(黄色为开源)

此外,本文阅读需要一定的 NLP 基础概念,比如知道什么是 BERT 和 、什么是 – 架构、什么是预训练和微调,什么是语言模型等。

系列

本节目标是通过 系列论文阅读细窥 的主要原理,其先进的工作脉络可以概括为下图。从依赖往上追溯需要了解 Codex 和 、再往上是 GPT-3、继而也需要了解 GPT-2 和 GPT-1。(GPT-4 暂时简单地看作是 Plus 版本的 GPT-3.5,而且增加了多模态数据的处理能力,等更多的细节公开后再作讨论)。

1.1 GPT-1

论文题目:

by Pre-

论文链接:

~///.pdf

1.1.1 动机

任务目标和 BERT 一致(但在 BERT 之前),希望通过大规模无标注数据进行预训练,下游任务微调的方式解决经典 NLP 任务,缓解有监督任务数据收集成本高的问题。GPT-1 虽然不是第一个使用预训练-微调架构的工作,但也是使用 – 做相关任务的很早期工作了。

1.1.2 方案概述

模型结构: 的 部分

训练方法:自回归的生成方式进行语言模型预训练,判别式的结构进行下游任务微调。

1.1.3 一些细节

微调:

1.1.4 结果与讨论

1.2 GPT-2

论文标题:

are

论文链接:

1.2.1 动机

GPT-1 之后不久,BERT 出现,刷榜各种任务。GPT-1 尝试增加模型大小,但在预训练+微调的训练框架下,仍打不过同参数大小的 BERT;但研究还得继续,尝试换个打法,以 Zero-Shot 作为卖点,效果不错。

1.2.2 方案概述

GPT-2 实现 Zero-Shot 的方法在现在看来比较简单:将所有的 NLP 任务统一看作是 p(|input)的建模,而如果统使用一个足够容量的模型实现,还要告诉模型需要完成什么任务,这时建模目标可以表达为 p(|input, task)。

对于统一大模型的选择,网络结构与 GPT-1 相同,使用方式也很自然:task 和 input 均使用自然语言的方式作为输入交给 GPT,模型继续一步步地预测下一个最大可能的 token,直到结束。如翻译任务:模型输入“翻译中文到英文,原文‘我爱深度学习’”,模型输出 “I love deep .”。又如阅读理解任务,模型输入“回答问题,内容‘xxx’, 问题‘xxx?’”,模型输出问题的答案。

没错,就是早期的 方法(其实也不是最早的)。这么做的依据则是考虑到训练数据集里有大量的 结构的语料,可以使模型学到遇到类似的提示语后需要生成什么。

1.2.3 一些细节

模型:沿用 GPT 结构,但在模型特征输入编码、权重初始化、词典大小、输入长度、batch size 等方面做了一些调整,主要是升级。

1.2.4 结论与讨论

1.3 GPT-3

论文题目:

are Few-Shot

论文链接:

1.3.1 动机

BERT 出来之后,虽然预训练+微调架构取得了惊人的效果(GPT 系列短期比不了了),但这种微调有很多限制:

文章认为,虽然微调现在效果确实打不过,但追求不微调仍然是值得的。方法嘛,延续 GPT-2 最后的结论,更大的模型、更多的数据、 更多的信息(In- )。

1.3.2 方案简述

主要与 GPT-2 相比:

1.3.3 一些细节

模型训练过程:

1.3.4 结论与讨论

1.4 Codex

论文题目:

Large on Code

论文链接:

怎么让chatgpt降低论文重复率_论文重复率降不下去_论文重复率如何降下来

1.4.1 动机

GPT-3 论文里提到,GPT 可以微调但放在未来搞,Codex 就是微调工作之一。任务是 GPT 模型在代码生成方向做微调的探索,算是一个应用方向的论文。

1.4.2 方案简述

具体地,Codex 是利用代码注释生成代码。训练数据从 上获取,主要为 语言。为了验证模型效果,Codex 做了一个新的数据集(164 个原始代码问题,可以认为一些经典的 题、面试题),通过单元测试的方式验证生成代码的正确性。

最终 Codex 可以取得 28% 的测试通过率(GPT-3 只能解决 0%);如果允许重复采样生成多个结果,选择 100 个,可以达到 70% 的通过率(想想自己能通过多少)。经过一些 策略,通过率直逼 80%。

1.4.3 一些细节

1.4.4 结论与讨论

1.5

论文题目:

to with human

论文链接:

1.5.1 动机

GPT 的另一种微调探索,使用用户指令和偏好答案来微调 GPT 模型,让模型生成的内容更符合用户的意图,更真实、更有用(,对齐过程)。这么做的出发点是面向一种经典的应用场景,用户给一条指令声明意图,期望模型生成有用、无害的内容,但使用大量网页数据训练的大语言模型 GPT 无法直接满足这种诉求,因此需要微调。

1.5.2 方案简述

指令微调的过程分为三步(RLHF, from Human ),如下图:

1、准备一批(来源标注人员手写、 API 请求);对于这批 ,标注人员手写期望的答案,用这份 + 数据微调 GPT-3 生成模型,这里叫做 ;

2、使用微调后的模型,根据更多的 生成答案(一次 多次采样生成个答案),这时外包只要标注生成内容的相对顺序即可;用这份标注数据训练一个 模型(RM 模型),输入 和 ,模型输出一个打分(这里同样是使用 GPT 模型)。

3、采样更多的 ,使用强化学习的方式,继续训练生成模型,强化学习的 使用第 2 步的模型打分。

第 2 和 3 步是一个持续迭代的过程,即,第 3 步训练出的更好的生成模型()可以用来收集更多具有相对顺序标签的数据,这些数据则用来训练新的 RM 模型(即步骤 2),继而再训练新的生成模型(对应步骤 3)。大多数的相对顺序标注数据来自于步骤 1,一部分来自于步骤 2 和 3 的迭代。

此外这篇文章并不是第一个使用该方法的工作,前面还有一篇《 to from human 》,使用类似三步方法做摘要任务。同样是 的工作,体现了工作的持续性,而非一蹴而就,灵感也不是说有就有。

1.5.3 一些细节

特点:

模型实现:同训练过程,包括三部分

(RL),两个实验模型:

在开源的 NLP 数据集,包括两类:

1.5.4 结论与讨论

1.6

论文没有,官方博客:

没有开放的细节,只有两段大致方法描述,摘要一下包括:

更多的细节无了,不过从 友商 (创始人也来自 )的一篇论文能看到更多细节。以 工作的持续性看,从公司跳槽出去的人,应该也是延续了相关的工作。

读 之前,插一段 的系列工作总结,存个档。读了上面的论文,对于这张表的内容应该能够大致理解(参考):

可能确实如一些大佬所说, 没有创新,只是一堆策略的叠加,凑出了一个强大的模型;也有人说 更多的是工程和算法的结合。不管怎么样,方法是真 work。

论文题目:

a and with from Human

论文链接:

出来不久, 很快推出了 ,媒体口径下是 最有力的竞争者。能这么快的跟进,大概率是同期工作(甚至更早,相关工作论文要早几个月)。 是 员工离职创业公司,据说是与 理念不一分道扬镳(也许是不开放、社会责任感?)。

一些内测结论: 相比 更能避免潜在 的问题,在代码生成略为逊色,通用 不分伯仲。从效果上,可能 功能性更强,而 更为“无害”(或者说,对社会的潜在负面影响更小),这点从参考论文的标题也有所体现。

2.1 动机

引入偏好模型和 RLHF(人类反馈强化学习)微调大语言模型(可能因为脱离 ,不提 GPT-3 了),得到一个 和 的个人助理(类似 );这种对齐()微调,使预训练的语言模型在几乎所有的 NLP 任务中效果提升显著,并且可以完成特定的任务技能,如 、摘要和翻译等。

2.2 方案简述

其实思路和 差不多,三阶段的 RLHF。不同点在于,1、进行了迭代式的在线模型训练:模型和 RL 策略每周使用新的人工反馈数据更新,不断迭代数据和模型;2、使用对话格式的数据数据;3、更为关注模型的 和 。

除了模型和策略设计之外,文章重点讨论了 RLHF 的稳定性问题;也对模型校准、目标冲突、OOD(out of )识别等问题做了分析。

目标冲突是指 和 的目标冲突,因为如果模型对所有问题都回答“不知道”,虽然 ,但是完全不 。

2.3 一些细节

数据收集和模型训练流程(中间涉及的概念需要读往期论文,了解即可):

LLaMa与

事情发展到现在,有一个小问题,就是模型越来越大,开源越来越少(其实开源了大多数人也玩不了)。首先 GPT-3 系列模型就很大了,训练和 模型都需要大量的显卡;其次,GPT-3 所用的数据也未公开,有算力复现也稍困难,需要自己去盘数据;在 GPT-3 之后的 的闭源程度更甚,可能要进一步考虑商业利益。

在这样的背景下,前调模型提效以及开放的工作越来越多,近期比较有影响里的当属 Meta AI 的 LLama 和斯坦福基于 LLama 的 。前者类似 GPT 的大语言模型,后者类似 。

3.1 LLama

论文题目:

LLaMA: Open and

代码链接:

3.1.1动机

3.1.2方案简述

LLama的思想比较简单,在动机里已经大致包括。这项工作的其他特点可以简述为以下几点:

论文重复率降不下去_论文重复率如何降下来_怎么让chatgpt降低论文重复率

3.1.3 一些细节

和 GPT 一样,同样是 架构,沿用了各种工作被验证有效的小优化(如:Pre-、 激活函数、 、AdamW 优化器等)。同时也做了一些训练效率上的优化,包括模型实现上以及模型并行上的优化。

3.1.4 结论与讨论

3.2

文章:

代码:

3.2.1 动机

前面可以看到,GPT-3.5、、 以及 Bing Chat 等指令微调模型被验证效果拔群,但仍存在生存内容虚假、带偏见和恶意等问题。为了加快这些问题的解决,需要学术届(穷老师、学生、公司)的加入一起研究,但是 GPT-3.5 这些模型大且闭源。

前阵子 LLama 发布,给了希望。所以基于 LLama 做指令微调得到了 模型,效果和 GPT-3.5 差不多,而且简单、复现成本低。

3.2.2 方案简述

3.2.3 一些细节

3.2.4 结论和讨论

目前开放了:测试Demo、训练数据集、训练数据的生成过程、训练代码;预训练的权重未来开放(可能考虑一些外因);

未来可能的方向(不包括优化推理能力,也许这些还是要留给有钱人):

GLM与

LLama 虽好,但更多的是使用英文数据集,但在中文上表现不佳。同样指令微调后在中文场景下上限应该也比较低。因此在中文上,有必要有自己的一条研究方向,当前影响力比较高的开源版本属清华的 GLM 和 。

GLM 和 相关的介绍比较多,下面摘抄部分内容对其进行简单了解。

4.1 GLM

论文题目:

GLM: Model with Blank

论文链接:

论文题目:

GLM-130B: AN OPEN PRE- MODEL

论文链接:

4.1.1 方案简述

GLM-130B 是在 GPT-3 之后,清华的大语言模型方向的尝试。不同于 BERT、GPT-3 以及 T5 的架构,GLM-130B 是一个包含多目标函数的自回归预训练模型。

4.1.2 一些细节

GLM-130B 在 2022 年 8 月开放,有一些独特的优势:

4.2

文章:

代码:

4.2.1 方案简介

参考 的设计思路,在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调( Fine-)等技术实现人类意图对齐。

为与社区一起更好地推动大模型技术的发展,清华同时开源 -6B 模型。-6B 是一个具有 62 亿参数的中英双语语言模型。通过使用与 ()相同的技术,-6B 初具中文问答和对话功能,并支持在单张 上进行推理使用。

4.2.2 一些细节

-6B 有如下特点:

因此,-6B 具备了一定条件下较好的对话与问答能力。-6B 也有相当多已知的局限和不足:

小结

到这里还是低估了工作量,写吐了,谷歌系列的几个工作,还是得单独一篇才能完结。与 的工作类似,谷歌同样产出了对标 GPT-3 和 之类的模型,也包括了 T5 系列的 – 结构的大语言模型,而且并不是简单的 。

另一方面 3、4 月份,广大的开源工作者们也是百花齐放,在类 的应用方向做出了很多探索工作,包括训练数据、模型、以及训练方法的探索与开源。在训练效率方向上,也出现了 +Lora、LLama+Lora 等进一步降低训练成本的工作。

这部分的内容也将在后面进行总结式的介绍和更新,也期待在这段时间里有更多优秀的工作诞生。对于文章中内容中的不正之处,也欢迎指正交流~。

参考文献

文章参考了诸多论文、博客以及“跟李沐学AI”关于一些相关论文的介绍,部分内容和插图参考链接如下。

1.

2.

3.

4.

5. A of Large :

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向

(如:小张-哈工大-对话系统)

即可申请加入自然语言处理/等技术交流群

关于我们

MLNLP社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

© 版权声明

相关文章

暂无评论

暂无评论...