10 月 17 日,在 “2023 百度世界大会 ” 上,李彦宏正式发布了最新的文心大模型 4.0 版本。
一时间,各种测评纷涌而至,各大科技媒体从理解、生成、逻辑和记忆能力等方面,对模型进行了全方位测评。
然而,除了被人反复谈论的文心 4.0 之外,在发布会上,另一个稍显低调的功能,却也冷不丁地显示了未来大模型的发展趋势。
这就是百度文心 4.0 的插件功能。
目前,文心 4.0 光是插件就有 8 个,包括一镜流影(文字转视频)、说图解画(看图说话)、E 言易图(可视化数据分析)等。
这些插件还可以自由组合,来完成更复杂的任务。
不仅如此,百度文心大模型插件开发平台——灵境矩阵平台,上线 1 个月已有 2.7 万家开发者申请入驻,个人开发者占比超 30%。
那么,百度为何如此重视插件?而插件生态的繁荣,对大模型又意味着什么?
01 插件,让大模型如虎添翼
从某种程度上说,插件对于大模型,相当于是另一大隐藏的 ” 杀手锏。”
在不对模型算法、参数进行改进的情况下,仅仅凭借一个简单的外接插件,模型能力就有可能得到显著扩展和提升。
此前,GPT-4 就已经通过插件功能实现了如虎添翼的效果。外界甚至将那次提升称之为 GPT-4.5 的到来。
今年 7 月 9 号, 宣布将官方插件 Code (代码解释器)通过设置中的 Beta 面板向所有 Plus 用户提供。
那 Code 具体能做什么?
简单来说,它相当于是 GPT-4 能力边界的一次大扩展,能让 GPT-4 做到很多之前做不到的事。
例如,在该插件推出后,推特用户 @歸藏展示了用代码解析器分析 订阅用户数据的过程。
代码解析器从分析数据到制图,都不需要使用任何复杂软件,只需要说出:” 我想分析最近一个月订阅用户增长的趋势 ” 这类直白的 ,就可以完成。
除外,人们还能直接用 ” 人话 ” 让 GPT 通过数据制作一些可视化的 GIF 图片。
例如人们如果想制作一份美国灯塔的地理图标,只需要上传地理位置数据,GPT 就能通过插件功能,自动制作如下的 GIF 动图。
而即使是想通过图片生成视频, 也能手到拈来。在启用插件后,只需告诉 GPT:” 我想用这张图片,制作一段从右往左的平移视频。”
GPT 就会根据你的要求,自动将 生成的图片做成视频。
网友 用 生成的汉堡视频
甚至,不怎么有代码和编程经验的人,也能运用 插件,在 5 分钟内制作一个简单的游戏。
只需几段提示词,一个简单的小游戏就完成了
总地来说, 包括的功能,涵盖了打破模态壁垒,转换素材形态,进行数据分析等多种不同的任务。
而该插件之所以有如此 ” 逆天 ” 的功能,则是因为其打破了自然语言和代码语言之间的壁垒。
有了它,用户就能刨去复杂的代码过程,通过自然语言交互(所谓 ” 人话 “),直接完成各种跨领域、跨模态的任务。
也正因如此,有人惊呼这种让模型能力倍增的插件,就是 GPT-4.5 的到来。
由此,我们便不难理解,为何百度会如此重视插件的发展。
对于大模型研发团队来说,让一个模型囊括用户的所有需求是不可能,也不现实的。因为在 AI 演化的过程中,用户必定会产生更多新的,难以预料的想法、需求。
而这时,一个个多样化的、灵巧的插件,就成了延申大模型能力的 ” 义体 “。
02 插件的百花齐放
除了 自带的原生插件之外,当下的 AI 赛道上,还涌现出了其他百花齐放的插件。
此处,我们将做一些简单的列举,看看这些功能各异的插件,将对大模型带来哪些多样化的扩展。
是一款功能强大的在线 PDF 工具,用户只需上传 PDF 文件到 , 便能够快速使用 AI 解析 PDF 文件内容,并生成准确的答案来回答用户的问题。
除了智能问答功能, 还提供了在线编辑、转换和文件压缩功能。如果用户想在 PDF 文件中添加或删除一些元素,或者更改某些文本或图像, 的在线编辑功能将会非常有用。
一个接入了 的 API 接口的网页侧边栏插件,启动该插件后,在浏览任何网站时, 就能使用 的能力,解读任何信息或文本,或对网页内容进行探讨,以及提供翻译等。
值得一提的是,除了 之外, 还集合了 、Bard 等其他 AI 的接口,如果这还不够,用户还可以在其接入的 AI 库中,自行搜索并添加其他 AI 工具,从而可以通过不同的 AI 满足自己多样化的需求。
这是一个可以在一个应用程序中使用不同的聊天机器人的插件,目前支持 和新的 ,并将来会集成 Bard 等更多聊天机器人。用户可以同时与多个聊天机器人进行交流,轻松比较它们的答案。
这是一个使用 对视频进行总结的插件。支持在视频网站上一键截屏和记录笔记。
启动该插件后,面对某些时长较长的视频时,用户就可以快速地用 获取视频内容的关键信息,并生成摘要和总结,同时还可以在观看视频时一键截屏或记录带有时间戳的笔记。
智星 AI 助手
这是国内首款支持插件的 AI 认知模型产品,智星 AI 当前已接入 7 个插件,包括天气查询、Bing 搜索、 等,可以快速提供实时天气信息,解答高等数学问题,进行深度金融分析等。
相较而言, 每次只能使用 3 个插件,而智星 AI 使用时没有插件数量限制。
WPSAI
相当于是国内版的 ,具备缩写、扩写、续写、转变写作风格、总结概括文章要点,快速生成 PPT 大纲、一键制作 PPT 模板,智能化处理 Excel 表格等功能,并拥有语音交互新特性,可以在手机等小屏终端上进行移动办公。
03 插件里的雄心
除了上述种类各异的第三方插件功能外,各大科技巨头在插件方向上,也呈现出了一种蓄势待发的态势。
例如, 插件平台,就提供了一系列的工具和服务,让开发者可以利用微软的的 和新必应,创建和部署各种 AI 插件,包括能力模型类、数据类、应用类等。其插件跨越了多个场景和产品,如 365、 365 等。
而在国内方面,百度也推出了号称让人人可开发 AI 插件的「灵境矩阵」平台,试图以文心一言为基础,构建一个庞大的插件生态。
而这种大布局的背后,至少显露了巨头们在两方面的意图:
1、 以插件为突破口,打通大规模商业化的路径;
2、 以庞大的插件生态,构筑类似英伟达的 CUDA 那样的软件壁垒。
关于第一点,为何大模型 + 插件模式,极有可能是 AI 大规模商业化的答案?
理由其实很简单,此前的大模型,无论是 AI 生文、作图,其赋能领域都只能局限在单一的、狭窄的范围内。
某个大模型也许写作水平不错,但它在现实中,该如何解决商品对比、财务分析这样多门类的、具体的任务呢?
人们在生活中的需求是多样化、多层次的,从这个角度上说,当大模型打破了单一模态的限制,并满足了这种多样化需求的时候,就是其真正大规模商业化落地的开始。
而一个个外接的插件功能,就相当于是大模型的?” 眼 ” 和 ” 手 “,让其不再局限于单一领域、模态的范围。
在未来,用户可能只需要一个大模型入口,就能完成诸如订票、点餐、叫外卖等任务。
而这也引出了第二点,即以插件为主的生态壁垒。
在当下的大模型赛道上,尽管国内外衍生的 AI 应用已不胜枚举,当其中有相当一部分,仍然是基于 的 ” 套壳 ” 产品。
这样的现实,也从一个侧面反映出:在大模型的选择上,大部分开发者和用户,仍然只认最强的几个头部产品。
著名投资机构 A16Z 上月公布的流量前 50 的 AI 网站,其中相当一部分是 ” 套壳 ” 应用
换句话说,对于大模型,用户只要遇到了一个最好用的,就不太会再用其他的。
在这样的逻辑之下,众多企业若是不想陷入重复造轮子的境地,最好的选择必然是将重心转向应用端。
而历史的经验表明,在软件、应用端的竞争上,谁能为开发者提供一个低门槛的,友好的开发环境,谁就能率先建立起自身的生态壁垒。
在这方面,英伟达的 CUDA 可以说是做了一个极好的表率。
经过持续的演进,CUDA 已然形成了一个丰富而成熟的庞大生态。英伟达也由此实现了软硬件深度捆绑:用他的软件就必须买他的硬件,买他的硬件使用 CUDA 可事半功倍。
而目前各大巨头们在插件上的争相布局,也颇与英伟达的 CUDA 有异曲同工之妙:开发者或用户若想实现低门槛、快捷的 AI 应用开发,就必须基于其大模型的能力。
反过来,应用生态的繁荣,又会强化人们对其大模型的仰赖。
而谁若率先实现了这样与应用相互促进,相辅相成的生态,谁就将有可能在 AI 时代率先竖立起自身的生态的壁垒。