4月25日,微软在官方博客发布了 v0.11。新版本增加了对、GPT-4的支持,帮助开发人员简化了将Open AI的模型应用于大型数据集的开发流程。(开源地址:)
据悉,是微软很早之前发布的一款开源机器学习库,帮助开发人员简化了大规模可扩展机器学习管道的创建。将多个现有的机器学习框架和新的MSFT算法统一在,一个可扩展的 API 中。该API可跨、R、Scala、Java、.NET和C#开发环境中使用。
简单来说,开发人员如果想通过开发一款智能应用程序时,在整个过程中需要不断地编写繁琐、复杂的REST API。现在,借助 v0.11新版本可以直接在数据集中调试模型,节省了大量开发时间。
v0.11除了支持、GPT-4之外,还新增了 Deep 、 v2、ONNX 模型中心、 和 v2。下面「AIGC开放社区」将详细为大家介绍这些新功能。
支持、GPT-4
支持、GPT-4大语言模型成为本次更新的重头戏,这使得开发人员通过大语言模型开发、调试应用变得更加高效、简单。
v0.11引入了3个用于处理基础模型的新API:、 和 。
其中, API 可以轻松地从数据框的列,构建复杂的大语言模型的提示。例如,一个名为“”的数据框列转换为表情符号的案例。
该代码将自动查找名为“”的数据库列,并使用创建提示的大语言模型(、GPT-3、GPT-4)。
此外,新的 转换器允许用户向 提交大量基于自然语言聊天的提示,从而一次可以并行推理数千个对话。这对于开发者通过、GPT-4模型开发应用来说非常有用。
Deep (简单深度学习)
v0.11引入了一个全新的简单深度学习包,只需几行代码即可训练自定义文本和深度视觉分类器。该软件包将分布式深度网络训练与 的强大功能,与 简单易用的API 相结合。新的 API 允许用户微调来自 的视觉基础模型,以及来自的各种最先进的文本主干。
下面这段代码展示了如何微调自定义视觉网络。
v2
是最常用的功能之一,在新版本中引入了和Spark 之间完全重构的集成—— v2。
这种集成旨在通过在核心库中,引入各种新的“流式 API”来实现高性能,从而在 Spark 和 之间实现快速且内存高效的数据共享。
值得一提的是,新的“流式执行模式”的内存占用,比早期版本的低10倍以上,从而节省了内存消耗并加快了模型训练效率。
ONNX 模型中心
支持各种新的深度学习与 ONNX 运行时的集成,以在所有语言(Scala、Java、、R 和 .NET)中实现快速、硬件加速的推理。在新版本中,添加了对新的 ONNX 模型中心的支持,它是最先进的预训练 ONNX 模型的开放集合,可以快速下载并嵌入到Spark管道中。这使能够完全弃用并消除对 CNTK 深度学习库的旧依赖。
(因果学习)
v0.11引入了一个新的因果学习包,可以帮助企业和政策制定者做出更明智的决策。当试图优化或干预对结果的影响时,相关分析或预测模型等传统方法有很多不足,因为它们不一定能建立因果关系。
因果推理旨在通过弥合预测与决策之间的差距,来克服这些缺点。的因果学习包实现了一种称为“双机器学习”的技术,它使开发者能够在没有来自受控实验的数据的情况下,预估优化结果。与基于回归的方法不同,这种方法可以模拟混杂因素、优化和结果之间的非线性关系。
v2
v0.11引入了 v2,这是 (VW) 在线优化库与 Spark之间的第二代集成。通过此更新,用户可以使用新的“”模型直接处理 数据。这使得现有 VW 用户更容易使用 Spark。
更详细的 v0.11技术更新文档,请在查看。