继百度之后,阿里、华为、京东、360等大模型也陆续浮出水面,大模型军备竞赛正式开启。
4月7日,阿里云宣布自研大模型“通义千问”开始邀请企业用户测试体验。
4月8日,华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》,分享了华为云盘古大模型的进展及其应用。
同日,京东集团副总裁何晓冬表示,京东将在今年发布新一代产业大模型,言犀是“京东版”。
4月9日,360正式官宣,基于大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测。
但有业内人士指出,大模型的训练需要庞大的算力资源,GPU是大模型的最佳算力发动机。
截至目前,英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持。
那么,在GPU受限的情况下,国内AI行业发展境况如何,能否交出属于他们自己的答卷?未来的发展是否会与国外越差越大?
国内厂商大囤AI芯片
众所周知, 大模型能有今日风光,英伟达的芯片A100功不可没。
公开数据显示,凭借10000片英伟达的GPU芯片,成功训练出了GPT-3大语言模型。
研究显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。
在这个的出圈元年,英伟达作为全球算力硬件当之无愧的龙头公司,今年前三个月市值翻了一番。
近日,英伟达又不负众望,推出了适用于的专用GPU,可以将推理速度提升10倍。
但值得注意的是,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片。
基于此,针对中国用户,英伟达按照A800操作模式(A100芯片的降维版本),推出了完全符合出口规定的H100的降维版本芯片,具体参数并未公布。
然而,无论是A800,还是H100中国版本,都和国外市场可使用的原版芯片存在差距。
据公开信息显示,英伟达专供中国的A800芯片,其传输速度只有A100的70%。
国内企业担心以后会买不到英伟达AI芯片,自美国制裁令开启,就开始大举囤芯片。
有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。
但据媒体报道,国内拥有超高算力芯片的厂商并不多。国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家。
其中,拥有1万枚英伟达A100芯片的最多只有一家。
而国内云计算相关专家认为,做好AI大模型的算力最低门槛,就是1万枚英伟达A100芯片。
国内外AI芯片存在差距
从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个GPU芯片在支持。因此,通用GPU市场需求将会迎来爆发式增长。
据 数据,2020年中国大陆的独立GPU市场规模为47.39亿美元,预计2027年将超过345.57亿美元。
有业内人士指出,作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。
在经历制裁后,国内的大型互联网企业在采购相关芯片时,尽管目前还是会购买英伟达,但也有相关的国产化替代方案。
因此,在这波替代潮中,国内的寒武纪、昆仑芯、燧原、华为海思、海光、沐曦、摩尔线程等中国新一代GPU芯片研发公司,都将迎来非常大的机会。
但同时,也需要看到国产GPU芯片与国外的差距,具体而言:
大模型对于算力的需求分为两个阶段,一是训练出这类大模型的过程;二是将这个模型商业化的推理过程。
在大模型训练阶段,需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,而现阶段国产GPU大多还不具备支撑大模型训练所需的能力。
不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。
英伟达的A100同时具备上述两类能力,而国内GPU芯片的云端训练公司,大多只能处理单精度浮点计算,如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错,但没有处理FP64的能力。
根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。
但有专家认为,国内通用GPU产品在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。
目前国产GPU公司都在朝着大模型领域去做布局。
昆仑芯表示,昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能,公司正在不断研发新的产品和技术,为等大模型的应用提供更佳的性能体验。
登临科技新一代产品针对基于的网络和生成式AI类大模型的应用在性能有大幅提升,对标国际大厂的产品有明显的能效比和性价比的优势。
燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施。
摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。
此外,行业从业者也都在做相关的探索和努力,如思考能否通过(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。
国产AI芯片尚需生态支撑
事实上,比起硬件性能上的差异,软件适配与兼容让国内客户接受更难。
当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。
从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,“慢”是企业最不愿意看到的场景。
此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。
对厂商而言,把国产AI芯片用起来并不容易。
算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。
先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。
这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。
如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。
目前世界上主流的深度学习框架都基于CUDA进行加速,整个产业中下游软件、驱动厂家等都基于此进行适配。
这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和操作系统+上层应用软件一样。
尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力,大多会选择兼容CUDA架构,来降低客户使用门槛。
当然,也有部分公司会选择自研加速器,如:寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。
但即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。
对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否则客户更换的意愿很低。
为此,国内从业者已经在构建生态上做努力。
在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配、互相支持。
例如,2022年4月,百度飞浆已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。
昆仑芯和飞浆完成3级兼容性适配,登临科技和飞浆也完成2级适配,沐曦集成电路和飞浆完成1级兼容性测试。
除此之外,华为的和爱可生向量数据库兼容;智源研究院的九鼎智算平台也在和多家国内AI芯片公司合作。
结语
未来,大模型训练对算力的需求会越来越大。想要参战大模型竞赛,算法、算力、数据环环相扣。
在最卡脖子的芯片环节,如何缩小差距,成为国内厂商求共解的命题。