chatgpt用了多少训练数据 投资人竞相追逐的数据标注公司,能撑起国产ChatGPT野心吗?

AI资讯1年前 (2023)发布 fengdao
30 0

导读

在大模型和RLHF机遇面前,新建“产品线”的成本投入十分必要。

本文3902字,约5.6分钟

作者| 潘程、真梓 编辑|真梓

来源|数字时氪

01

数据标注,众星捧月

一个月来,与有关的故事还在持续上演,甚至已经蔓延到了数据标注领域。

这期间,数据标注平台估值高涨、文本公司需求激增、AI大厂开始分拆数据标注团队……那个被“选择性无视”、被“认为没有讨论价值”的数据标注行业,再一次支棱起来了。

这种全行业认可首先反映到资本层面,国内一二级市场的相关公司应声实现了新一轮估值高涨。

春节后A股的第一个交易日,上市公司海天瑞声就结结实实走出了第一个涨停板,此后连续12天其股价一路高歌,从81.6元飙升到244.8元,市值超过百亿,比此前翻了3倍还多。

尽管海天瑞声在公告中已经作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与开展合作,其的产品和服务尚未给公司带来业务收入”……但资本的热情不减,截止发稿海天瑞声的股价仍处于214.20元高位。

而在一级市场,B轮及以前的十余家早期项目集体迎来了接近100%增幅的高估值,其中不少人已趁机敲定新一轮融资。有业内知情人士透露,“目前,即便是刚成立1-2年的新公司,其价格已经很贵了。”但数据标注公司每天迎来送往的早期投资人仍络绎不绝,甚至有创业者为了见投资人只能将招聘时间安排在夜里23:30之后。

随后,国内不少正在布局的文本公司,对数据的需求激增。

对标海外各家大厂的大模型与数据标注平台的合作, 的 LaMDA 选择与美国供应商合作,预训练语料库大小为2.81T;Meta 的 与亚马逊MTurk合作,预训练语料库大小为180B;的 / 与 和 Scale AI 合作,虽然没有公布详细数据,但预计预训练语料库不会太小。

不难看出,每个大模型的背后依然有数据标注平台的服务支撑。而此时,国内不少追随者已经开始对背后的文本数据构建产生兴趣。

“这段时间,我们能非常明显的感受到来咨询合作的文本公司暴增,他们普遍都在关心文本怎么构建、数据集如何制作等问题。”某数据标注公司CEO表示,“一周时间,找过来的公司已经有大几十家。”

这种价值认可还在AI大厂中蔓延。

分析师卢冠男此前曾表示,“对训练数据的标注方式提出了新的思路,所以在训练数据的工程准备上,企业也需要摸索和改进。”

据知情人士透露,“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

数字标注在这种价值认可中,也试着摘掉“堆人力”“血汗工厂”的标签,逐步走向自我升级。在旷视研究院看来,“近年来随着大模型、自动驾驶等data 型应用的不断规模化,驱使数据标注行业不断向低成本、高质量、高效率进发,开发高效的采标一体化平台,采用AI辅助标注、human-in-the-loop、模拟仿真等技术手段提高标注质量和效率、降低标注成本,已成为数据标注行业的前沿阵地。”

02

大模型背后

chatgpt用了多少训练数据_训练数据用来训练模型_训练数据是什么

数据标注被迫升级换代?

超乎寻常逻辑,能带火数据标注行业,并不是因为数据量激增。

纵使积累了包括维基百科、专业论坛、论文、图书在内的众多高质量英文文本数据,纵使GPT-3拥有1750亿参数,训练语料超45TB,但本质上,大模型对低层次的数据标注需求很低。

这与其背后无监督(含自监督)、半监督的机器学习方式有关。

早前,实现人工智能的主流方法是监督学习。这种训练方式中,训练集中的各项数据特征和目标都是人为标注的。也就是说,这种模式需要进行大量基础数据标注工作,且高质量的数据被“淹没”其中,很难从中摘出来。

图灵奖得主、CNN之父Yann LeCun曾将无/自监督训练比作“人工智能蛋糕上的樱桃”。

因为无监督学习不需要前期大规模的数据标注,在训练数据中,只需要给定输入,没有人工给出正确的输出,目的是让模型开放式地、自己学习数据之间的关系。

半监督学习则处于两者之间。在这种学习方式中,模型会尝试从未标记的数据中提取信息来改进它的预测能力,同时也会使用部分已经标注过的数据进行结果验证。

换句话说,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。

但与此同时,让更具有“人味”的关键——强人工反馈 RLHF,却带来另一种更高要求的数据标注需求。

相关分析显示,“在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导的参数调整,最终帮助模型进行强化学习和不断优化。”

也就是说,让”更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。

紧跟趋势的国内公司已意识到这件事。在观察中,最近围绕大模型、的一个必谈话题就包括RLHF。而在实践层面,一家重注大模型的大厂专家表示,”现在公司已有上百人都在做强人工反馈相关的事情。”在他的眼中,不少同行同样对RLHF深度布局。

按照常理,RLHF应该完全属于数据标注公司的业务范畴。但如今一些有财力也看重这一需求的AI公司,也就是数据标注公司的客户,很可能在自己搭建、重组团队。

原因或许出乎意料——RLHF,可能是传统数据标注模式难以满足的需求。

图注:开展RLHF方法的三步骤

前文提到,在开展RLHF之前,大模型的训练需要海量无标注数据以获得”基本的感知能力”。

这对数据标注公司提出了第一个创新需求——利用已按各类场景被标注、被清洗完善的数据集进行训练,成为刚需。而在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主,由于缺少自有数据很少有出售精准数据集的服务。

在王可泽的观察中,数据质量不高,会影响到无监督学习的效果,最终也影响大模型的精准性。

“价值最大的一部分就在于其拥有一部分精细的、被标注的指令数据。”王可泽说,“通过与的交互,就能感受到其技术团队在数据量和数据种类方面花了很多心思。”

一些投资人也看到这一趋势。商汤科技投资总监王暘表示:“现在已经看到大家在研发和训练大模型时,都较倾向选用已经标注好的开源或公共数据集。同时,为了提升训练质量,对购买已经标注好的数据集也有需求。”

而在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的”公序良俗”,理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How,往往需要行业专业人士出手——这些不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。

也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。

“得先训练好标注同学,才能训练好模型。”这句来自AI从业者的网络调侃,并不是一句虚言。

训练数据是什么_chatgpt用了多少训练数据_训练数据用来训练模型

03

中国数据标注公司

能力是否配得上未来?

新的需求已然清晰。

所代表的大模型,并不全盘需要传统的数据标注业务——为了精准性,它们看重数据集和RLHF所代表的人工反馈需求。

于是,一系列灵魂拷问出现在数据标注公司面前:如何才能快速提供可靠的数据集?又该如何升级人才架构?

首先针对数据集,目前国内多数传统数据标注公司并不提供这项业务。明确将“数据集”产品在官网提及的海天瑞声,产品集中在语音识别、语音合成、自然语言处理、计算机视觉数据集,垂直领域、热门场景下的高质量数据集仍相对稀缺。

另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。

了解到,目前的确已有标注公司开始在内部撰写《人员提升教程》。他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。

但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。某数据标注公司运营负责人曾表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”

王可泽进一步拆解,如今的人工反馈还处于”初级状态”。在更精细化的场景中,AI需要很可能是一系列的深度专业意见。”比如在学术场景中,我们往往需要详细的指导,而不是简单的打分或者排序。”他打了个比方。

显然,这部分非常专业化的工作,远超数据标注公司的能力范畴。

但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。

比如,《时代周刊》报道显示,在2021年底与Sama签署了三份总价值约20万美元的合同,雇佣普通数据标注员为数据库中有害的内容进行标记。再加上,虽然大模型的机会往往属于财大气粗的少数大厂,但却可能长出不计其数的新型AI应用。这部分应用的AI训练,也需要传统数据标注。

也就是说,新一波AI浪潮留给数据标注公司的机会并不少。就算是无法直接吃到大模型红利的传统业务,也可以依靠AI应用的增多分到一杯羹。

这意味着,一段时间内传统数据标注的总需求大概率不会减少。而这种阶段,或许也是”时间窗口期”——数据标注公司能一边依靠传统业务积累营收,一边依托收入投入新业务建设。

这种经营模式对数据标注行业而言并不陌生。只不过,过去它们的自我迭代方向是利用自动化手段撕下”堆叠人力”标签。

一家成立近15年的数据标注公司表示,行业内平均每家众包平台上都有上万人,人员流失率却多在30%以上。为提升标注精准性和人员工作效率,这家公司会对AI辅助标注的研发投入重金。现在,AI辅助标注工具的研发已成为全行业都认可的投入方向。

而面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。

王暘认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。”虽然人才可能通用,但具体做的事情和阶段差异还挺大的,而且RLHF对垂直领域的应用关联度非常强。”他补充。

“数据标注公司需要升级自己的人才梯队。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。”一位长期参与AI建设的专家如此预判,原因是,这样的创业者更可能合理地传递各行业客户的RLHF需求。

面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的”价格”。

END

媒体合作:

商务合作:

© 版权声明

相关文章

暂无评论

暂无评论...