这篇近百页的综述梳理了预训练基础模型的演变史,让我们看到 是怎么一步一步走向成功的。
所有的成功都有迹可循, 也不例外。
前不久,因为对 的评价过于苛刻,图灵奖得主 Yann LeCun 被送上了热搜。
在他看来,「就底层技术而言, 并没有什么特别的创新,」也不是「什么革命性的东西」。许多研究实验室正在使用同样的技术,开展同样的工作。更重要的是, 及其背后的 GPT-3 在很多方面都是由多方多年来开发的多种技术组成的,是不同的人数十年贡献的结果。因此,LeCun 认为,与其说 是一个科学突破,不如说它是一个像样的工程实例。
「 是否具有革命性」是个充满争议的话题。但毋庸置疑,它确实是在此前积累的多项技术的基础上构建起来的,比如核心的 是谷歌在几年前提出来的,而 又受到了 关于注意力概念的工作的启发。如果再往前追溯,我们还能链接到更古早的几十年前的研究。
当然,公众可能体会不到这种循序渐进的感觉,毕竟不是谁都会一篇一篇去看论文。但对于技术人员来说,了解这些技术的演进过程还是非常有帮助的。
在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,非常值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶( S. Yu), AI 副总裁熊蔡明都是该论文作者之一。
论文链接:
论文目录如下:
在海外社交平台上,DAIR.AI 联合创始人Elvis S.推荐了这篇综述并获得了一千多的点赞量。
引言
预训练基础模型(PFM)是大数据时代人工智能的重要组成部分。「基础模型」的名字来源于 Percy Liang、李飞飞等人发布的一篇综述 ——《On the and Risks of 》,是一类模型及其功能的总称。在 NLP、CV 和图学习领域,PFM 已经得到了广泛研究。在各种学习任务中,它们表现出了强大的特征表示学习潜力,如文本分类、文本生成、图像分类、目标检测和图分类等任务。无论是用大型数据集在多个任务上训练,还是在小规模任务上进行微调,PFM 都表现出了优越的性能,这使其快速启动数据处理成为可能。
PFM 和预训练
PFM 基于预训练技术,其目的是利用大量的数据和任务来训练一个通用模型,该模型可以在不同的下游应用中很容易地进行微调。
预训练的想法起源于 CV 任务中的迁移学习。但看到该技术在 CV 领域的有效性后,人们也开始利用该技术提高其他领域的模型性能。
当预训练技术应用于 NLP 领域时,经过良好训练的语言模型可以捕捉到对下游任务有益的丰富知识,如长期依赖关系、层次关系等。此外,预训练在 NLP 领域的显著优势是,训练数据可以来自任何未标记的文本语料库,也就是说,几乎存在着无限量的训练数据可以用于预训练过程。早期的预训练是一种静态技术,如 NNLM 和 ,但静态方法很难适应不同的语义环境。因此,人们提出了动态预训练技术,如 BERT、XLNet 等。图 1 描述了 PFM 在 NLP、CV 和 GL 领域的历史和演变。基于预训练技术的 PFM 使用大型语料库来学习通用语义表征。随着这些开创性工作的引入,各种 PFM 已经出现,并被应用于下游的任务和应用。
最近走红的 是 PFM 应用的典型案例。它是从生成性预训练 模型 GPT-3.5 中微调出来的,该模型利用了大量本文和代码进行训练。此外, 还应用了来自人类反馈的强化学习(RLHF),这已经成为让大型 LM 与人类意图保持一致的一种有希望的方式。 卓越的性能表现可能会给每种类型的 PFM 的训练范式带来转变,比如指令对齐技术、强化学习、 和思维链的应用,从而走向通用人工智能。
本文将重点放在文本、图像和图领域的 PFM,这是一个相对成熟的研究分类方法。对于文本来说,它是一个多用途的 LM,用于预测序列中的下一个单词或字符。例如,PFM 可用于机器翻译、问答系统、主题建模、情感分析等。对于图像,它类似于文本上的 PFM,使用巨大的数据集来训练一个适合许多 CV 任务的大模型。对于图来说,类似的预训练思路也被用于获得 PFM,这些 PFM 被用于许多下游任务。除了针对特定数据域的 PFM,本文还回顾并阐述了其他一些先进的 PFM,如针对语音、视频和跨域数据的 PFM,以及多模态 PFM。此外,一场能够处理多模态任务的的 PFM 的大融合正在出现,这就是所谓的 PFM。作者首先定义了 PFM 的概念,然后回顾了最近研究中达到 SOTA 的 PFM(如 OFA、-IO、FLAVA、BEiT-3 等)。
根据上述三个领域现有的 PFM 的特点,作者得出结论,PFM 有以下两大优势。首先,要想提高在下游任务中的性能,模型只需要进行很小的微调。其次,PFM 已经在质量方面得到了审查。我们可以将 PFM 应用于任务相关的数据集,而不是从头开始构建模型来解决类似的问题。PFM 的广阔前景激发了大量的相关工作来关注模型的效率、安全性和压缩等问题。
论文贡献与结构
在这篇文章发布之前,已经有几篇综述回顾了一些特定领域的预训练模型,如文本生成、视觉 、目标检测。
《On the and Risks of 》总结了基础模型的机会和风险。然而,现有的工作并没有实现对不同领域(如 CV、NLP、GL、、Video)PFM 在不同方面的全面回顾,如预训练任务、效率、效力和隐私。在这篇综述中,作者详细阐述了 PFM 在 NLP 领域的演变,以及预训练如何迁移到 CV 和 GL 领域并被采用。
与其他综述相比,本文没有对所有三个领域的现有 PFM 进行全面的介绍和分析。与对先前预训练模型的回顾不同,作者总结了现有的模型,从传统模型到 PFM,以及三个领域的最新工作。传统模型强调的是静态特征学习。动态 PFM 对结构进行了介绍,这是主流的研究。
作者进一步介绍了 PFM 的一些其他研究,包括其他先进和统一的 PFM、模型的效率和压缩、安全以及隐私。最后,作者总结了未来的研究挑战和不同领域的开放问题。他们还在附录 F 和 G 中全面介绍了相关的评价指标和数据集。
总之,本文的主要贡献如下:
对 PFM 在 NLP、CV 和 GL 中的发展进行了详实和最新的回顾。在回顾中,作者讨论并提供了关于这三个主要应用领域中通用 PFM 的设计和预训练方法的见解;
总结了 PFM 在其他多媒体领域的发展,如语音和视频。此外,作者还讨论了关于 PFM 的前沿话题,包括统一的 PFM、模型效率和压缩,以及安全和隐私。
通过对各种模式的 PFM 在不同任务中的回顾,作者讨论了大数据时代超大型模型未来研究的主要挑战和机遇,这指导了新一代基于 PFM 的协作和互动智能。
各个章节的主要内容如下:
论文第 2 章介绍了 PFM 的一般概念架构。
第 3、4、5 章分别总结了 NLP、CV 和 GL 领域中现有的 PFM。
第 6、7 章介绍了 PFM 的其他前沿研究,包括前沿和统一的 PFM、模型效率和压缩,以及安全和隐私。
第 8 章总结了 PFM 的主要挑战。第 9 章对全文进行了总结。