2022年下旬,我曾经在京师上海律所元宇宙峰会上提到“后续的科技进步会以指数级的速度发展”,半年不到的时间,现在全球1亿多人都深深体会到了这句话。让全球人为之震撼和疯狂的科技就是,使人工智能走进寻常百姓家。截止2月10日,我国宣布有类技术储备、准备发布和已经发布类产品服务的大厂有:阿里巴巴、腾讯、华为、字节跳动、京东、360、科大讯飞、快手、网易有道等,超过10余家互联网大厂进军火热的。那么,类似这种算法模型及产生内容应该如何保护,中国政府监管合规规定以及算法模型如何转化利用,通过陆续几篇文章抛砖引玉。
一、了解
是美国人工智能实验室于去年2022年11月推出的一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是 Pre- (生成型预训练变换模型)的缩写。通过学习大量现成文本和对话集合(例如Wiki),能够像人类那样即时对话,流畅的回答各种问题(当然回答速度比人还是慢一些)。无论是英文还是其他语言(例如中文、韩语等),从回答历史问题,到写故事,甚至是撰写商业计划书和行业分析,“几乎”无所不能。甚至有程序员贴出了进行程序修改的对话。也可以与其他AIGC模型联合使用,获得更加炫酷实用的功能(例如通过对话生成设计图)。这极大加强了AI应用与客户对话的能力,使我们看到了AI大规模落地的曙光。
仅仅发布两个月,月活跃用户已达1亿,这是历史上增长速度最快的应用。据测算,基于1亿用户、每月20美元计算,年收入将超过200亿美元。同时,全球有超过10亿潜在用户可以从获得帮助,经估算,整个的市场规模就超过2000亿美元。如果收费模式获得成功,对于投资者而言,这将是巨大的利润前景。
二、的技术特点
是基于GPT-3.5( Pre- 3.5)架构开发的对话AI模型,用于收集大量对话数据。使用 RLHF( from Human ,人类反馈强化学习) 技术对 进行了训练,且加入了更多人工监督进行微调。在对话过程中会记忆先前使用者的对话讯息,即上下文理解,以回答某些假设性的问题。可实现连续对话,极大的提升了对话交互模式下的用户体验。
的训练过程分为以下三个阶段:
第一阶段:训练监督策略模型:首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型。
第二阶段:训练奖励模型:在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。
第三阶段:采用PPO强化学习来优化策略:这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。即在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的模型。
三、人工智能知识产权如何保护
我国强调数字经济发展,伴随着人工智能算法模型(类似AIGC、)技术的飞速突破,机器一秒可生成精美图画、机器能帮你写出优秀论文等事件将会越来越频繁,我可以想象当将这些智能工具使用在元宇宙场景内时,虚实结合的虚拟经济将会得到真正的实现,新的经济生产、消费维度的空间大门为我们徐徐打开。
1.机器学习中的算法是指一种具体的计算方法,也就是如何求解全局最优解,并使得这个过程高效而且准确,本质上就是计算机算法。当前,我国是以专利制度为主,软件著作权、商业秘密等为辅对人工智能客体进行拆分并予以保护。例如《计算机软件保护条例》中明文规定软件著作权人具有各项人身权及财产权。同样,算法天然的满足商业秘密对秘密性、价值性、保密性的要求,可以为算法提供客体存续期间内无限制的保护期限。但是,著作权法无法保护算法的核心思想,商业秘密难以禁止反向工程,赋予算法产品“领先时间”,因此,专利保护是主要的保护方式,其他方式可以进行辅助和弥补。申请算法专利过程中的阻碍,一是“智力活动的规则与方法”的界定,二是“技术方案”的限制。
《专利法》第25条为授权客体作出反向规定的同时,《专利审查指南》新增章节将“包含算法特征或商业规则和方法特征的发明”纳入专利法保护范畴。早期的算法往往包含数学方法,数学公式以及相应的参数定义等内容,单纯的数学运算方法因其抽象性而属于智力活动的规则和方法。人工智能算法则代表着深度学习等领域先进的科学技术,人工智能产业竞争的核心。算法已经成为计算机解决目标问题、执行指令的技术方案,甚至是人工智能产业的基本方面,单纯的数学运算方法已经演化为数学思维融入算法的具体步骤之中。
可以采用“二分法”授权标准,即使方法专利中存在抽象概念的应用,如果其应用属于算法特征且体现了科学与技术的融合,产生了“有用、具体、切实的结果”,而不是简单在说明书中加入其工业应用领域,则应纳入专利法的保护范围。
“技术方案”是对要解决的技术问题所采取的利用了自然规律的技术手段的集合,涉及技术问题、技术手段、技术效果三个要素。就单一要素对算法专利申请进行观察难以得出客观结论,因为算法专利的核心要义不局限于实体物的创新,一方面包括计算机硬件的改善,通过方法步骤的组合实现对外部运行过程的控制、对外部数据进行处理或者交换;另一方面包括计算机系统内部性能的改进,对计算机系统内部资源的管理,对数据传输的改进等。
2.进入算法时代,算法创作越来越具有独立性的同时人类的介入性降低,算法创作内容在越来越广泛的作品类型领域具备高度的作品外观。此时,如何在法律上对算法创作内容进行性质认定,并据此进行怎样的权属配置,成为当前备受争议的焦点问题。
算法创作内容法律保护的学术争议:
A.有学者主张,作者是作品的原始著作权人乃是由《伯尔尼公约》设定的普遍的国际共识。由于人工智能不具备作者资格,所以也无法为算法创作物找到合适的权利人,因此最佳的解决方案(也是对著作权理论冲击最小的方案)就是将算法创作物视为公共财产置于公有领域,供人们自由使用。
B.有学者主张通过财产权机制对算法创作内容予以保护。大体上看,赞成对算法创作内容赋权的观点可概括分为著作权保护模式论与非著作权保护模式论。
非著作权保护模式的基本立场是:“作品”的认定与“作者”的承认在法律性质上是一体两面的关系。一旦认定人工智能不具有主体资格,则无须对客体(算法创作内容)进行任何形式的审查,可直接排除在著作权保护范围之外。日本及美国基本是认可这种观点。尽管算法创作内容因主体的不适格而不具备作品资格,无法纳入著作权保护范畴,但其作为具有创新性的计算机输入数据,可以利用其他财产权机制予以保护。比如,有学者主张运用孳息理论对算法创作物进行法律保护。人工智能的本体属于客体(物)的范畴,其人工智能的产出物(算法创作物)与人工智能本体之间形成了“物生物”的关系,因此契合民法中的孳息原理。也有学者提出,将算法创作内容进行财产化,将之定性为特殊的数据财产,并赋予人工智能使用者以维护算法创作的表达完整,对他人盗用、恶意篡改等行为主张债权性利益。
著作权保护模式的基本立场是:“主客体分离评价标准”。人工智能的作者主体资格与算法创作物的作品客体资格之间可以一定程度地分离评价。即便立法不承认人工智能具备法律主体资格或作者资格,也不妨碍人工智能输出的算法创作物获得著作权保护。我本人倾向于以邻接权保护,邻接权在著作权制度框架内更凸显保护投资的法律价值,这与主要依靠大量资本投入的人工智能产业的发展趋势不谋而合,也为投资者获得算法创作物著作权利益提供了较强的理论支撑。且邻接权的客体不必是著作权法中的作品,某些不具备独创性的数据信息也可被纳入邻接权的范畴之中,比如立法上可设置“数据处理者权”的新型邻接权。
就在上周,我完成了一家类脑公司数据产品在上海数据交易所挂牌的数据合规法律意见书,就涉及到算法合规,下一篇我将介绍国内算法合规。
作者介绍
洪燕律师
执业领域:区块链、元宇宙项目规划、专利挖掘、专利布局、专利撰写、专利运营;知识产权证券化、知识产权数据合规等。
北京市京师(上海)律师事务所专职律师、元宇宙服务中心副主任(知识产权)。洪燕女士毕业于北京航空航天大学,自动控制系;南昌大学,法律系;香港商学院&马来西亚科技大学数字经济与区块链专业方向工商管理博士(DBA)在读。受聘于上海知识产权局第一批知识产权运营特派员,香港商学院客座教授,上海临港科创中心区块链项目调研员,曾先后任职于中央企业13年,上市互联网公司10年。