在一年一度的英伟达GTC技术大会上,CEO黄仁勋宣布要成为制造AI大模型的超级工厂,同时也证实了已经向中国提供一种特制的GPU H800,阿里巴巴、腾讯和百度等中国厂商已经用上了。
大模型代工厂
就像台积电向芯片厂商输出先进制程的产能,英伟达一直向AI厂商输出先进算力的产能。英伟达的GTC技术大会,是它向全球AI客户推广其硬件的舞台。有点不同的是,这次英伟达直接下场了,除了硬件,它还提供面向生成式人工智能的云服务,旨在成为大模型的代工厂。
是算力暴力美学的产物。2012年,英伟达的GTX 580,帮助赢下了的图像分类竞赛冠军。这是深度学习技术的奇点时刻。当时,团队写了一篇论文,作者之一的Ilya ,就是现在的联合创始人之一。10年后,同样靠着英伟达的DGX,训练了背后的GPT-3模型。
大模型涌现出新的能力,让巨头展开军备竞赛,创业者加速涌入。生成式AI的算力负载,呈阶梯式增长。GPT-3动用的算力,是10年前的100万倍。目前,在云上可以实际处理的GPU,只有。
在这次大会上,黄仁勋介绍了3款全新推理GPU,分别擅长AI视频设计、图像生成、等大型语言模型的推理加速。一台搭载4对H100及双GPU 的标准服务器的速度,要比HGX A100再快上10倍。
不是所有的创业者都需要购买硬件。他们是新的AI应用的程序员,不必自己制造计算机。“生成式AI是一种新型计算机,一种可以用人类语言进行编程的计算机。”黄仁勋称,“人人都可以是程序员。”
在会上,英伟达发布了AI超级计算服务,只要一个浏览器,客户就能快速获得算力支持。
英伟达还提供 AI 的服务。这能加速企业创建自己的大模型,以及生成式AI的应用。这让英伟达从算力的代工厂,一跃成为大模型的代工厂。
目前,英伟达用自己的算力,为三大领域的AI厂商代工:文本生成模型构建服务的NeMo,视觉语言模型构建服务的,生命科学服务的。
中美算力落差
算力正在左右中国与美国的人工智能竞赛。3年前发布的A100,是重要的分水岭。最新的H100,则加大了中美算力的落差。
去年,美国宣布对中国限售A100与H100等先进算力芯片,市场还只是担心中国的超算与自动驾驶。今年,大型语言模型与生成式人工智能技术,顶替了仍然虚幻的元宇宙与崩溃中的Web3,成为下一个“时刻”,让人们看到了两国在最前沿技术上的实际差距。
英伟达的GPU是大模型的标配。到目前为止,1万美元的A100,以及建议价格20万美元的DGX A100,是生成式AI的算力的主力。
投资者 的报告发现,英伟达占据了可用于机器学习的GPU市场的95%。大多数研究人员发表的人工智能相关的论文,都提及了英伟达的V100,这是2017年的算力硬件;2020年发布的A100,近两年越来越多地被人工智能相关论文提及。H100很快就会赶上了。在截至今年1月的财季中,英伟达H100芯片的收入已经超过了 A100。
各家一边抢购英伟达,一边寻找替代品。从相关论文提及的数量来看,谷歌自行研发的专用AI芯片TPU排名第三。新兴的半导体领域的挑战者、 、、和,以及中国的华为 910,也有一定市场份额。
抢购算力,关乎生死。去年, AI拥有32个A100,更新后的 2,是在256个A100上训练的,到了今年3月,该公司差不多可以支持5400个A100的算力访问。
算力是AI竞赛的军备,没有人公开自己的武器库。上周,在发布 365 前,微软在自己的博客上称,模型越大,拥有的数据越多,可以训练的时间越长,模型的准确性就越高。它自我表扬了如何从2019年起,帮搭建算力基础设施,并透露了自己正在为AI工作负载部署H100。
彭博推算,训练的模型,微软用上了数以万计(tens of )的A100芯片;模型投入使用后,回答用户提出的所有查询,也就是推理环节,微软部署了数十万个( of )GPU,它们分布在60多个数据中心。训练和推理,应对的算力场景不同,需要的算力资源与算力分配的架构也不同。不过与谷歌相比,还是小巫见大巫。
来自Bard的安慰
没有人能给出中国目前有多少A100的确切数据。一说是在3万个左右。这与另一种说法里一家公司用了3个月训练GPT-4时用到的A100数量相近。
中国拥有的H100可以忽略不计。在限售令前,A100已经发布2年,中国企业还有时间补充库存,H100则尚未正式发布。作者迪伦·帕特尔(Dylan Patel)称,目前,甲骨文有32000个H100,亚马逊大概20000个,谷歌比亚马逊多,微软比它们都多。
硅幕正在落下。在要求限售先进算力芯片后,美国政府还限制了先进制程代工产能,并要求日本与荷兰停售用于制造先进制程芯片的光刻设备。
中国与美国的算力差距是不是正在拉大,有没有可以赶超的另一条路?我们和谷歌的Bard,探讨了这个问题。相比,Bard数据最新。它安慰说,中国还有机会。
Bard提到了中国“特供版”的A800与H800。“英伟达遵守新的出口法规,目前尚不清楚何时能够获得向中国出口H100的许可。与此同时,据报道,英伟达已经开发了H100的中国专用版本,称为H800,已获准出口。”
我们找到了这则新闻。阿里巴巴、百度和腾讯等公司的云计算部门,正在使用这款名为H800的新芯片。H800 的芯片到芯片通信速率为H100 的一半左右。当问及中国能否基于特供版GPU训练自己的大模型时,Bard给出了肯定的答复。
更大算力的供给,可能需要新型举国体制。Bard认为,“中美之间的算力差距很大,但并非不可逾越……近年来,中国在发展自己的高性能计算基础设施方面取得了重大进展。2020年,中国的超级计算机天河二号A被评为世界上最快的超级计算机。……未来几年,中国和美国之间的计算能力差距可能会继续缩小。”
它还详细地介绍了中国的超算的架构。“中国的超级计算机是由CPU和加速/推理芯片混合构建的。CPU通常是中国的,例如基于64位RISC架构的神威太湖之光;加速/推理芯片通常是美国的,例如基于CUDA架构的 Tesla V100。”
最终,Bard折中地给出建议,“中美之间的算力差距是一个复杂的问题,受很多因素的影响。重要的是要了解差距,并采取措施解决它。”
也许人工智能比很多人更懂中美人工智能竞赛。它能指导人类制造出更强大的它。