美国人工智能公司的大语言模型在推出约两个月后,1月已达到1亿月活跃用户,成为历史上增长最快的消费者应用程序。相关专家预计,不仅是新一代聊天机器人的突破,也将为信息产业带来巨大变革,但由此带来的学术造假、技术滥用、舆论安全等风险亦不容忽视。
新一代操作系统平台的雏形
多语言撰写充满想象力的诗歌,编写可运行的程序,快速生成论文摘要,自动制作数据表格,纠正文章中的语法和表达错误,把一周大事写成新闻综述……不仅能理解很多人类问题和指令,流畅展开多轮对话,也在越来越多领域显示出解决多种通用问题的能力。
还轻松通过一些对人类难度较高的专业级测试:它新近通过了谷歌编码L3级(入门级)工程师测试;分别以B和C+的成绩通过了美国宾夕法尼亚大学沃顿商学院MBA的期末考试和明尼苏达大学四门课程的研究生考试;通过了美国执业医师资格考试……业界形容它的诞生是人工智能时代的“时刻”,意味着人工智能迎来革命性转折点。
“的成功不应仅仅被看作新一代聊天机器人的突破,而应该重视其对人工智能乃至整个信息产业带来的革命。”北京智源人工智能研究院院长黄铁军接受记者专访时说,人工智能领域的过去十年是深度学习的十年,但产业总体上并没有出现移动互联网和云计算级别的爆发,“的出现,具有划时代意义,大模型+已形成新一代操作系统平台的雏形”。
黄铁军说,在技术路径上采用了“大数据+大算力+强算法=大模型”路线,又在“基础大模型+指令微调”方向探索出新范式,其中基础大模型类似大脑,指令微调是交互训练,两者结合实现逼近人类的语言智能。应用了“基于人类反馈的强化学习”训练方式,用人类偏好作为奖励信号训练模型,促使模型越来越符合人类的认知理解模式。
“这样的AI可帮助人类进行真实创造,尤其是帮助人类提高创造效率,比如提高获取信息的效率或提出新颖想法,再由人解决其真实性问题。创造效率的提高将产生巨大效益和多方面影响,可以改变世界信息化格局。”中国科学技术大学机器人实验室主任陈小平对记者说。
引发新一轮人工智能科技竞赛
的问世正在人工智能领域引发新一轮科技竞赛。北京时间2月8日凌晨,微软推出由支持的最新版本必应搜索引擎和Edge浏览器,宣布要“重塑搜索”。微软旗下、Azure云服务等所有产品都将全线整合。
北京时间2月7日凌晨,谷歌也发布了基于谷歌LaMDA大模型的下一代对话AI系统Bard。同一天,百度官宣正在研发的大模型类项目“文心一言”,计划在3月完成内测,随后对公众开放。阿里巴巴、京东等中国企业也表示正在或计划研发类似产品。
人工智能大模型领域的全球竞争已趋白热化。黄铁军认为,未来有望演变成新一代操作系统平台和生态。这种变革似移动互联网从个人电脑到手机的转化,大部分计算负荷将由大模型为核心的新一代信息基础设施接管。这一新范式将影响从应用到基础设施各层面,引发整个产业格局的巨变,大模型及其软硬件支撑系统的生态之争将成为未来十年信息产业焦点。
值得注意的是,有时会“一本正经地胡说八道”,存在事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成虚假信息、版权争议等人工智能通用风险。多家全球知名学术期刊为此更新编辑准则,包括任何大型语言模型工具都不会被接受为研究论文署名作者等。
“学术论文的署名作者须满足至少两个条件,其一是在论文工作中做出‘实质性贡献’,其二是能承担相关的责任。目前这两个条件(以及其他AI系统)都不满足。”陈小平说。
也有应用在舆论信息战方面的潜力。加拿大麦吉尔大学研究团队曾使用前代模型GPT-2阅读加拿大广播公司播发的约5000篇有关新冠疫情的文章,然后要求其生成关于这场危机的“反事实新闻”。连也警告使用的用户,它“可能偶尔会生成不正确的信息”,“产生有害指令或有偏见的内容”。
“针对这些问题,需要我们在发展技术的同时,对于应用边界加以管控,建立起对人工智能生成内容的管理法规,对利用人工智能生成和传播不实不良内容进行规避。同时加强治理工具的开发,通过技术手段识别人工智能生成内容。这对于内容检测和作品确权,都是重要前提。”北京瑞莱智慧科技有限公司副总裁唐家渝说。