chatgpt持续更新模型大力出奇迹：大模型+大数据+高算力，ChatGPT不断突破

AI资讯2年前 (2023)发布 fengdao

116 0 0

大力出奇迹

(1)预训练大模型:GPT 大模型是的基础，目前已经过多个版本迭代， GPT-3 版本参数量达 1750 亿，训练效果持续优化。

(2)数据:数据是预训练大模型的原材料。GPT-3 数据主要来自 Crawl、新闻、帖子、书籍及各种网页，原始数据规模达 45TB，训练效果大幅提升。

(3)算力:微软是独家云计算供应商，所用超算拥有 285,000 个 CPU内核、约 10,000 个GPU。在大模型、大数据和高算力的支撑下，技术持续突破，表现惊艳。

模型在线更新_如何更新模型_chatgpt持续更新模型

是以为基础的预训练模。GPT全称 Pre- ，即生成式预训练模型。预训练模型是指通过挖掘利用大模无标注数据，学习数据中的知识与规律，然后针对特定任务，通过微调、手工调参等阶段，进入到可以大规模、可复制的大工业落地阶段。模型来自谷歌 2017 年发表的论文《 is all you need》，是一种采用自注意力机制的深度学习模型，模型按照输入数据各部分的重要性的不同而分配不同的权重。的优势在于:(1)采用并行训练，大幅提高了训练效率;(2)在分析预测更长的文本时, 对间隔较长的语义具有更好的关联效果。

由 GPT-3 微调而来，模型更小，专注于聊天场景。对比来看，GPT-3 是一种大型通用语言模型，可以处理各种语言处理任务，是一个较小的专用模型，专为聊天应用程序设计。训练包括三个步骤:(1)预训练一个语言模型 (LM) ;(2)聚合问答数据并训练一个奖励模型 (，RM) ;(3) 用强化学习 (RL) 方式微调 LM。此外，因为引入了代码作为训练语料，还额外产生了自动写代码和理解代码的能力。

通过 RLHF 优化训练结果。基于人类反馈强化学习(RLHF)，通过众包团队大规模开展生成结果好坏的人工标注，经过多次迭代，使得大模型生成结果更加无偏见和符合人类预期，实现了“智慧涌现”的效果。

模型在线更新_chatgpt持续更新模型_如何更新模型

局限:(1) 的知识有限。的预训练数据库只更新至 2021 年，无法进行联网更新，因此不能理解和回答 2021 年之后发生的事情;(2) 真实性无法保障。的部分训练是基于从互联网上搜集的数据，因此它的输出结果经常受到偏见和不准确信息的影响，无法保证真实性。

数据主要来自 Crawl、新闻、帖子、书籍及各种网页。 Crawl、网页、书籍、维基百科对于训练的贡献量分别为 60%、22%、16%、3%。英文维基百科全部内容包含约 30 亿，仅占到训练数据量的 3%。

Crawl 是一个由网络爬取产生的大型免费语料库，数据规模达 PB 级。 Crawl(CC)是一个从网络抓取数据并免费开放的非盈利组织，数据库包含了 2008 年以来的原始网页、元数据和抓取文本，数据规模达 PB 级别，其中英文数据占比约 45%，中文数据占比约 5%。CC 数据库的应用场景包括训练 NLP 模型、网络抓取和机器学习等，CC 数据库对于 AI 的意义堪比对于互联网的意义，重点研究实验室一般会选取纯英文过滤版(C4)作为数据集。

微软是独家云计算供应商。根据 Open AI 于 2018 年的统计，自 2012 年以来，AI 训练任务所运用的算力每 3.43 个月就会翻倍，算力需求每年长 10 倍。训练的硬件为超级计算机，2019 年，微软向投资 10 亿美元，双方将共同开发超算技术，微软也成为独家云计算供应商。提供训练的超级计算机拥有约 285,000 个CPU 内核、约 10,000 个GPU，每个 GPU 服务器拥有约 400GB/s 的网路连接速度。