ai智能自动生成视频软工具 值得关注的Google下一代通用人工智能双子座Gemini系统

AI资讯1年前 (2023)发布 fengdao
42 0

大家好,我是王文广,在走向未来说说值得关注的下一代通用人工智能双子座系统。

虽然说 还未发布,但关于 的 消息逐渐多了起来。鉴于 Bard在近日水平突飞猛进,并且开放了“读图”功能(这可是在GPT-4发布时重点介绍但至今为开放的重量级能力),我对 的期待逐渐强烈起来。不知道 发布之日,是否会是 王者归来之时?是否会是AGI 迈步大跨越之时?

最早在5月10日, 发布PalM-2就提到了从头开始训练 多模态大模型,并且强调了在使用工具和集成 API 方面表现出色,并致力于实现在记忆和规划方面的创新。同时也强调了虽然 还在训练当中,但已经展现出了强大的多模态能力,这种能力是此前的模型(我猜应该是指 自己的模型,不算GPT-4)所没有的。同时,也明确说了一旦完成微调和严格的安全测试, 就会发布,并且提供多种规模的模型来满足不同产品、应用和设备的需求。不过,这里面仅仅透露了在训练 这么一件事情,以及这个事情模糊的目标,其他信息可以说几乎没有。特别是,考虑到GPT-4已经大规模使用,的目标就显得没那么的特别,甚至有点稀疏平常了。所以,当时 并没有被关注。

的第二波热度是Wire 对Demis 的采访。采访中透露了一些信息,比如说“ 的成本要数亿美元【’s cost could run into the of 】”,“ 结合了 类系统的一些优势与大型模型令人惊叹的语言能力”,以及“一些非常有趣的创新”。这里的对的强调就非常有趣。众所周知,从 开始, 人类反馈的强化学习RLHF已经是 AGI 的标配了,但则强调了 ,这说明 有可能找到了新的方法,使得神经网络大模型(不是大语言模型,毕竟多模态是板上钉钉的)能够更好的应用强化学习来做“对齐”,而非GPT-4所使用的 PPO。甚至,更有可能是深度神经网络大模型的无监督训练过程本身就是用了类似 所使用的强化学习方法,而不是像 GPT一样的无监督方法。另外一种可能是,结合前面提到的在规划和记忆方面的创新,所使用的强化学习有可能用于增强 的规划能力。事实上,我一直认为目前的大模型是不具备规划能力,需要用知识图谱等符号主义的方法来增强。事实上,这个观点也为人工智能领域许多专家所认可,比如Yang LeCun 天天在【】上吐槽的就是“自回归语言模型不能规划【Auto- LLMs still can’t plan.】”!不过,也许 找到的方法是行为主义【强化学习】的方法,而非符号主义【知识图谱】的方法,这点也是很有趣的。

对知识图谱有兴趣的,可购买我写的珠峰书《知识图谱:认知智能理论与实战》一书。

同时目前已披露的另一个消息是, 使用了 的视频来训练模型,结合哈萨比斯所说的在尝试使用机器人和神经科学【 from to 】的创新方法来增强模型的能力,这就很值得品味了。很有可能就使用视频数据来训练模型的连续视觉理解能力。毕竟机器人视觉和神经科学的很重要一环就是视觉理解。另外有小道消息在说, 也在使用 的视频来训练其下一代模型(GPT-5?)。这是否可以说明,AGI 具备连续的视觉理解能力指日可待了呢?或者说,在硅谷,大家已经在为 AGI 的连续视觉理解能力而努力。

在 AGI 领域,有一种观点是,通过超大规模的语言文字,可以在 AI 中构建出人类对所处的物理世界的理解的镜像。但我认为单纯从语言文字来理解世界,在AGI 中所构建出这个世界的镜像是有其固有局限的,并无法支撑真正的 AGI。要在人工智能中真正实现 AGI ,这中间最关键的环节是让机器能够自主地从物理世界中学习,这就要求 AGI 具备连续的视觉理解能力。也就是说,连续的视觉理解能力是AGI从物理世界学习的基础。另一方面,从已知的成果来看, 在这块的技术储备是很强的,不管是 PaLM-E 还是 ,都是成功的尝试。也因此,我判断, 从视频中学习出连续的视觉理解能力是非常可能的。而一旦AGI 具备了连续的视觉理解能力,接下来的发展将势不可挡了【这点我在提到了自动驾驶,因缘是类似的】!我对AGI 的判断将从曙光初现发展为旭日东升^_^。

再一波关于 的热度则是最近的“谢尔盖·布林 ( BRIN) 重返谷歌工作岗位”的新闻。该新闻的副标题就是“在科技巨头总部,联合创始人正与人工智能研究人员一起工作,协助构建其强大的 系统”。报道强调了“布林与一组研究人员密切合作,构建了谷歌期待已久的人工智能模型 。他们讨论了诸如“损失曲线”之类的技术问题,这是一种衡量人工智能程序随时间推移表现的方法,布林还每周与谷歌员工就新的人工智能研究进行讨论。”同时,该报道还说“布林会干预人事事务,聘用受欢迎的研究人员。”这则新闻本身没有太多关于 的内容,但所表现出来的是 对 系统的重视,也说明对于人才的渴求,以及所透露出的, 的创新性。

本号持续关注通用人工智能,会持续跟踪人工智能【大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习】有关的数据、算法、模型和创投,欢迎关注本微信公众号【走向未来】获得一手数据和知识。

事实上,到现在为止,不管是Demis 还是 BRIN,都没有谈及任何关于 的细节。但这些信息还是引起了我对 非常强烈的期待。期待着能够看到一些牛逼的创新。毕竟,根据我的研究,自2017年至今,人工智能领域(跟GPT-4有关的,以及无关的)算法上的创新, 十之七八来自于 (和)。同时,也得承认,鉴于当前的形势,即使 发布了,详细披露架构和实现细节的概率也不大。到时期待多一些一些小道消息了。

ai智能自动生成视频软工具_自动视频生成软件_自动视频制作软件

如果有听过我公开演讲的话或者看过我的一些文章以及发表的论文的话,可以知道,我一直在吹嘘 AGI。而目前 所透露的消息,满足了我的很多设想。上图是我对 AGI 的构想的概括,在许多公开演讲的PPT 中都有这么一页。总的来说,AGI有三方面的内容。

1.感知世界的能力:这个基础是连续视觉感知。可以猜测, 显然在尝试这个,但发布时是否具备该能力,或者到了哪种程度,现在还未知。

2.推理决策的能力:这个的基础就包括记忆和规划。在 有关的信息中显然提到了这一点。关于记忆方面没有很多内容,神经网络本身就具备记忆功能,同时基于此前 LaMDA模型,在记忆中加入 的知识图谱( Graph)也未必不可能。而规划方面,目前已经明确的是使用了 所使用的强化学习方法来增强大模型的规划能力。关于这一点,我此前的文章一直提到的 “以人为本的通用人工智能HAGI=神经网络大模型+知识图谱+强化学习”的公式,也许在 中可能被实现了。

3.使用工具的能力:这个就是使用工具和调用 API 的能力,使用工具可以认为是“硬”的能力,比如类似 PaLM-E 操纵机械臂的能力,而调用 API可以认为是“软”的能力。在GPT-4的 “Code ”功能开放之后,我认为使用“软”工具的能力趋于成熟【预告我的文章《程序员将死,工程师永生!》】,而AGI使用“硬”工具的能力,也将出现【参考我对自动驾驶的判断文章:《算力》的文章】。

总之,千言万语汇聚成一句话,那就是“从 到 ,AGI星星之火即将燎原”。这也是为什么我对 强烈感兴趣之所在。

最后,对 的做一些猜测:

1.神经网络使用MoE架构【高可能性】

2.用某种方法融合了知识图谱来增强记忆【中可能性】

3.训练时用了强化学习,使用了 PPO 之外的优化方法【高可能性】

4.推断时使用了强化学习【低可能性】

自动视频生成软件_ai智能自动生成视频软工具_自动视频制作软件

5.最大参数在1T~10T 之间【高可能性】,大于10T【中可能性】,小于1T【低可能性】

6.推断时激活参数大于100B【高可能性】,小于100B【低可能性】

7.训练语料的文本词元()数量大于10~100T【高可能性】,大于100T【中可能性】,小于10T【低可能性】

8.训练语料的图片10~50B 张【高可能性】,小于10B 张【低可能性】,大于50B 张【中可能性】

9.训练语料的视频大于1000万分钟【高可能性】。

10.预计发布时间也许是2023年9月27日 的25岁生日【随便猜测】,2023年年底前【高可能性】。

本文是《迈向以人为本的通用人工智能》的一份子,对通用人工智能有兴趣的,可阅读下面文章:

如果觉得文章对你有用,请随手打赏。打赏的钱将用于购买 的服务器(显卡),届时开始大模型有关的训练和应用直播!当然 A100或 H100很贵,靠打赏存钱犹如万里长征!不过千里之行,始于足下,截至【2023年7月26日】,已获得打赏总金额为:25元。

最后,如果单用户多次打赏金额超过1000元的前10位用户,可获得一次海报二维码定制服务,帮忙设计类似如下的看起来是海报但实际是二维码【摄像头扫一扫可扫码,长按无法识别二维码,因为缺少二维码特征】,可用于头像、海报、书籍、宣传册、户外大型广告等等。

© 版权声明

相关文章

暂无评论

暂无评论...