chatgpt算法模型原理不用数学和代码，解释下ChatGPT算法原理

AI资讯2年前 (2023)发布 fengdao

140 0 0

这一段时间花了挺长的时间开始看的算法原理，有了一些新的认知，mark了一些算法书，对和有了更多的尊重。虽然这不是底层的算法理论突破，但在算法应用落地方面的创新还是让人震惊。与此同时，这个团队能坚持这样一条与众不同的路走到现在，也让人由衷敬佩。

这篇文章试图不用数学和代码，解释下的算法原理，希望也能跟大家分享这种震撼。

一、算法的基础原理

算法的本质是统计学，这是一句正确的废话，废话程度和“人类的本质是复读机”不相伯仲。

但如果要一句话说明白的算法是什么，这句话也还算是合适和恰当的。

输入和输出

算法的任务本质就是为了对一个数据输入给出一个计算后的输出。对于搜索而言，输入是搜索词，输出是搜索结果，对于推荐而言，输入是用户特征，输出是推荐内容。对于语言模型而言，输入是问题，输出是回答。

模型总是要接受一些数据样本作为原始的训练材料，这些材料需要包含输入和输出两部分，并且需知道这个输出对这个输入是不是好的结果。有些模型需要人工进行打分，打分的本质就是评估一个输出对于输入是不是好的。

有一些模型看起来不需要这样的输入和输出，实际上样本中已经隐含了这样的关系，比如一篇文章有些词经常一起出现，就说明这两个词有关联，文章作为训练样本好像没有输入和输出，但输入和输出就包含在文章的字里行间。

具体的模型搭建，就像是一系列非常复杂的数学公式，但是包含了大量可以调节的参数，学习的过程就是计算最合适的参数，来让模型的逻辑更加符合实际上预先给定的输入和输出的逻辑。

神经元结构

计算机最基础的结构是与非门，当前主流的大规模算法的基础则是神经元模型。

在生物神经元中，一个神经元有多个树突和一个轴突，树突接受之前神经元的电信号，经过处理，如果激活则会将电信号通过轴突传递出去。

在计算机的神经元结构中也是如此，一个神经元可以有多个信号输入，这些输入有不同的权重，神经元会接受这些输入，并处理为一个输出。

人的大脑有超过100亿个神经元构成，而算法也可以有大量这样的神经元结构。GPT-3公布的参数有1750亿个，目前关于的参数规模还没有公布，但可以肯定的是，参数规模应该显著高于GPT-3。

最近几年的AI浪潮中，前沿模型的基础结构都是神经元。为了适应不同的任务类型，神经网络被搭建为不同的结构。这个过程就像集成电路形成各种电子元件，再组装成这个领域的电子产品。也像是人体的结构，细胞构成组织、组织构成器官、器官构成系统、系统构成人体。

这篇文章讨论的算法结构，更像是器官和系统维度的讨论，大致描述的机理。

损失函数和随机梯度下降

算法的目的是什么呢?简单来说，算法用自己训练后的逻辑针对每一个输入给出一个输出，算法那可以针对一些已经有正确输出的样本进行校验，算法输出和真实输出的误差，就是损失。这些损失的累加结果就是损失函数，算法的目标就是让这个损失函数最小。

数学原理上，算法优化的目标就是不断计算损失函数的偏微分，去对参数进行定向优化，不断寻找损失函数的最小化方案，这个过程叫做梯度下降。

梯度下降有一个比较直观的解释。我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。

这样一步步的走下去，我们就能一直走到已经到了山脚。

这里的描述进行了简单化的处理，实际上无论是损失函数的设计，还是梯度下降的计算，都有很多工程化的处理。稍微思考下就会发现，如果用这种方法下山，开始刚好在几个山中间的高地，就无法找到下山的路，这叫做局部最优解问题。比如算法完全针对这些样本优化，导致实际的时候对新样本无效，这也就是过拟合问题。这些问题不在展开讨论，总而言之，这里就是一个大体思路的描述，对很多细节做了隐藏。

二、模型基础

用了很多已有的算法，要了解，要先了解机制和RLHF。

机制

算法顾名思义是就是处理数字的方法。对于语言这种富含信息量的内容，首先需要将语言抽象为具体的可计算编码，这个机制一直在变化。2017 年，在论文《 is All you need》中提出了模型，其使用 Self- 结构取代了在 NLP 任务中常用的 RNN 网络结构。是一个 – 架构，顾名思义，可以分为两个部分：编码组件和解码组件。这种结构可以在所有的语言任务都可以应用，理解的文本内容可以认为是编码，语言任务无论是翻译、回答、复述、扩写，都可以理解为内容生成。

相比于之前的RNN（循环神经网络，）和,LSTM（长短期记忆，Long short-term ），可以捕获更长的特征，所以可以理解长文本。中间特殊的机制就是可以对之前的文本进行权重分配，聚焦关键信息，这就导致可以有更强的理解能力。

强化学习

算法模型是什么意思_算法模型_chatgpt算法模型原理

强化学习（RL, ）基础结构如下：

Agent（智能体），就是我们要训练的模型，根据训练后的规则对不同环境做出反应。

(动作)，2D游戏向左走、向右走和向上跳，做的这三个动作就是。

（环境），环境会根据智能体的不同动作，提供不同的奖赏。

(奖赏)，这个奖赏可以类比为在明确目标的情况下，接近目标意味着做得好则奖，远离目标意味着做的不好则惩，最终达到收益/奖励最大化，且这个奖励是强化学习的核心。

State(状态)，可以理解成当前智能体面对的环境状态，简称状态。

算法的流程：“依据策略执行动作-感知状态–得到奖励”循环进行。强化学习就是在虚拟环境中持续模拟计算，持续进化自身策略，只要算力支持，环境和实际环境一致，则算法可以进化到理论上完美的地步。

几年前机器学习的浪潮进入大众视野，和战胜李世石和柯洁的新闻有很大的关系。很多人不知道的是，在战胜了柯洁之后，公司推出了抛开人类经验的新版本人工智能 Zero，这就是强化学习的典型应用。

但这个算法的前提是，环境和系统的交互规则需要真实。在游戏中是这样的，围棋规则非常明确，对手的落子可以用另一个Agent去模拟，环境完全清晰，所以围棋首先取得了突破。之前有开发过一个 Five，2019年一亮相就战胜了Dota2的冠军队，也开发了星际AI，也有一些战绩。但这类复杂游戏中，AI表现出的更多是操作碾压和零失误，而不是游戏策略的提升，这也让大家对强化学习能否广泛应用产生了怀疑。

因为现实世界中问题，决策空间更为复杂，环境规则和博弈方行为都无法进行有效的预测，强化学习还能应用吗？实际上自动驾驶到现在核心控制模块还是规则引擎，为什么不用强化学习呢？因为真的不敢，真的会死人。

RLHF

RLHF（ from Human ）没有特别通用的翻译，是基于人类反馈来构建强化学习，使用强化学习的方法和框架，但是模型能够接纳人类反馈。

RLHF不要求构建真实的环境，而是用人工标注的反馈信息去构成环境的奖励机制。这样训练的结果就是系统汇迎合人工的标注和判别标准。

正是用了RLHF的机制，做到了自然而流利的对话。

三、模型的技术

GPT模型的思路

首先得理解GPT是什么，GPT是生成式预训练模型（ Pre-），总结而言特点是就是无监督的预训练，去完成语言任务。这是在2018年提出的模型。

和无监督学习对应的是监督学习，监督学习就是给一个学习任务大量的样本，让模型进行学习。但是无监督学习则不会针对性地给大量学习任务样本。

GPT的核心思想用一句话解释就是，用统一模型解决语言的全部问题。相比于之前一个领域一个模型的监督学习模式，这样的思路更有变革性，但也更容易走入死胡同。

比如同样是语言模型，同样是机制，之前应用广泛的Bert模型中，就是每个任务训练一个小模型，每个小模型都需要进行定制化标注。

之前广泛应用的聊天机器人也是这种范式，通过语言触发对应的语言任务，比如问天气、问路等，然后在这个任务下进行回答。之前的一些语言大模型实际上是很多独立任务的堆砌，就想国产凌凌漆中文西的要你命3000一样，看似统一，实则割裂。

而的GPT模型，则是进行统一的预训练，针对任务做一些微调，虽然针对不同的任务有水平高低，但是能针对所有的语言任务给出回答，是真正的统一的语言大模型。

GPT的发展历程

GPT阶段：基于预训练 + 微调

第一个阶段是利用语言模型进行预训练，第二阶段通过人工微调的模式解决下游任务。

GPT2阶段：舍弃微调，直接做零样本学习

算法模型_chatgpt算法模型原理_算法模型是什么意思

彻底放弃了微调阶段，仅通过大规模多领域的数据预训练，让模型在零样本学习的设置下系统学会解决多任务的问题，而且效果还不错。

GPT3阶段：开启NLP新范式从而实现小样本学习

就是给预训练语言模型的一个线索/提示，帮助它可以更好的理解人类的问题。

阶段：RLHF模式接入语言训练，更多的微调

利用人类的标注数据去对GPT3/GPT3.5进行有监督训练。针对模型的多个回答，标注员进行排序标注，通过对排序标注的理解，形成RLHF机制形成内部奖励模型，让回答更契合人类标准。

的突破

首先，毫无疑问，这种新思路实现效果本身就是突破。从目前的效果上讲，借助强大的算力，+RLHF+模型组合下，效果上看起来远超普通语言模型。但在此之前，大模型这条 or 的道路，在大多说人看来前景非常灰暗。当小步快跑的独立任务语言模型不断突破的情况下，如果大模型不能全面超越，就会输掉一切。

一切都是有代价和成本的，这中间但凡多走一点弯路，就不会有今天的，毕竟从GPT的概念提出到现在，已经过去了5年。另起炉灶全面超越，这个听起来有点热血的故事，很像十年磨一剑，颠覆智能手机市场。

于此同时，目前已经是多种前沿算法理论组合。、、RLHF的组合，选取了大量的数据，设计了合理的标注流程，并且将这些融合。虽然不是传统意义上的算法团队理论创新，但难度和复杂度一点都不低。原子弹的基础理论高中物理书上就有，但是能造出原子弹的国家全世界也没有几个。

四、一些算法相关的常见问题

如果投入大量资源，可以快速复制吗？

不能。

首先背后有英伟达和微软的支持，算力和云平台的全方位支持。有些东西是有市无价的，其他公司花同样的钱不一定有相同的效果。

同时之前公布了大量的模型原理，而只是介绍了思路，且稍微详细的介绍在GPT-3之后就没有了。大量的技术trick并没有公布，新模型甚至没有开源论文，连参数规模都需要猜测，从理论到实践中有大量的坑需要摸索。

比如具体机制怎么实现？RLHF需要标注什么规模的数据？标注标准什么样的？算法怎么做到泛化？的算法微调到底在哪些环节？这样的问题还有很多，大量这样边边角角的问题让复制充满了困难。要知道，腾讯开发围棋AI绝艺没有花多长时间，在战胜柯洁的同时，绝艺也已经能战胜顶尖人类棋手。

但目前国内没有人敢拍着胸脯说能给他多少钱多长时间，能作出来。各大公司也是蹭热度式宣布，真正在做的人，可能现在也是两眼一抹黑的状态。

能否替代搜索、客服、营销、XXX？

目前不能。

搜索可以给出多个可能结果让用户选择，问答需要给出单一结果。是完全不同的场景，所以不能替代搜索。

目前回答不能针对在线数据，或者内部数据库，所以无法在公司单独业务中应用。但从原理上来讲，没道理后续版本不能支持。

从原理上来讲，多轮对话有8kb的文本存储，这就是可以对接外部信息的基础。针对非通用的NLP任务，特别是有极高商业价值的客服和营销，后续版本需要接入其他知识库，或者给出一些训练数据接入的协议。

下一阶段额的商业突破关键，就是抽象的流利多轮对话能力+本地化数据库，甚至提供可以商业化的私有化部署能力。提供出这样的ToB能力，AI就会真正彻底颠覆世界。

至于这需要多久，我倾向于观察GPT4和GPT5的版本升级内容，如果没有质变，也许就意味着GPT的通用模型和本地化数据库本身不够兼容，或者商业化成本过高超出一般公司承受能力。

GPT后续版本陷入瓶颈的概率并不低，要知道，大模型本身意味着大量的参数可解释性差，无法调整。而GPT能否生成toB的个性化的，因为目前不知道他们的是怎样的工程化实现的，所以也无法揣测。

五、系列小结

加上之前的两篇AIGC的文章，这已经是第三篇了，算是对AIGC和有了一个大概的了解。

这篇文章试图通俗，但可以预料可能还是会出现“汉字全认识，但放一起不理解”的情况。这也没有办法，目前的算法已经失去了简洁性，不用数学语言，其他的解释终究是管中窥豹。

现在回看30年前的协同过滤算法，居然可以用中学数学的知识讲清楚，反而是一种意外。

因为这次算法本质是语言模型和强化学习的进步，我会再系统性看一下和强化学习的书，后续如果有可以简单化分享的内容，可以再跟大家交流。

# AI资讯 # 标注 # 样本 # 模型 # 神经 # 算法

文章版权归作者所有，未经允许请勿转载。

chatgpt是ai人工智能吗什么是深度学习？从图灵测试谈到ChatGPT(文末送书)

fengdao

168 0

指南ai工具 AI真的能够理解人类语言吗？这里有一份“AI可解释性”攻略指南

fengdao

185 0

ai倒角工具极智AI管综 | 如何用AI管综做管线综合？

fengdao

151 0

chatgpt里可以开发的应用场景 ChatGPT背景研究及应用场景

fengdao

161 0

ai变脸软件俄罗斯出了款风靡西方的AI变脸App，却把美国政客吓坏了

fengdao

140 0

chatgpt 算法框架 ChatGPT技术的深度学习框架和算法.docx 2页VIP

fengdao

175 0

暂无评论

暂无评论...

chatgpt算法模型原理不用数学和代码，解释下ChatGPT算法原理

google浏览器chatgpt插件谷歌浏览器怎么安装插件_提示无法从该网站添加怎么办

如何用chatgpt分析计算表格 ChatGPT处理Excel表格公式计算使用指南(1)

相关文章

暂无评论

chatgpt算法模型原理 不用数学和代码，解释下ChatGPT算法原理

google浏览器chatgpt插件 谷歌浏览器怎么安装插件_提示无法从该网站添加怎么办

如何用chatgpt分析计算表格 ChatGPT处理Excel表格公式计算使用指南(1)

相关文章

暂无评论

chatgpt算法模型原理不用数学和代码，解释下ChatGPT算法原理

google浏览器chatgpt插件谷歌浏览器怎么安装插件_提示无法从该网站添加怎么办