chatgpt能不能识别图片里的题目 别急,让ChatGPT再飞一会儿

AI资讯1年前 (2023)发布 fengdao
30 0

潘多拉的魔盒一旦被打开,在人们收获新鲜感和便捷之时,大量的风险和隐患也在悄然出现。

的大火,让很多人都沉浸在所带来的的智能体验时,它的一些问题开始陆续出现。

有人在问它一些数学计算问题的时候,它会出现明显的计算错误;有时候它会一本正经的“胡说八道”,有些回答看起来很“靠谱”,但其实和事实完全不符……

各类问题和风险的频繁出现,也让大众对它的质疑和争议越来越多,有人指出,在教育和学术界可能引发滥用问题,由支持的最新版本Bing也因其不当回答遭到质疑等等。

那么究竟有哪些局限性?局限之下,未来还能带来哪些惊喜?

01

有哪些局限性?

爆火后,很多公司开始推出自己的“”,但没想到首秀就出现了“翻车”。北京时间2月8日晚间,谷歌在巴黎举行AI发布会,向外界正式披露聊天机器人产品 Bard。

发布会现场,Bard在回答「詹姆斯·韦伯空间望远镜的新发现」这个问题时,说詹姆斯韦伯望远镜(JWST)拍下了第一张系外行星的照片。

然而事实并非如此,第一张系外行星是由欧洲南方天文台出资打造的欧洲极大望远镜所摄。首秀就翻车,不免让人“唏嘘”。

图 | 用户在谷歌博客中展示的与Bard的对话内容(图源:腾讯科技)

实际上,本身也并不完美,所属公司 的CEO萨姆·奥特曼直言,并不健全,当你使用100次后,就会察觉它的弱点。随着越来越多的人开始使用,它的局限性也日益凸显。

数据的实时性问题

澎湃新闻的一位工作人员在与进行对话时,问其关于今年土耳其发生地震的信息,回答称,它无法访问最新的事件进展。因为其当初在进行模型训练时,数据只更新到2021年。

据金融界报道称,目前英文版本的数据截至2021年,而中文版本的数据截至2020年。因此,目前只能提供接受过训练的信息,但无法准确回答超过训练数据之外的问题。

真实性无法保障

澎湃新闻的测试者继续追问其“东京奥运会金牌榜”时,似乎给出了一个“靠谱”的回答,但仔细看起给出的数据发现,它所描述的金牌榜单与真实榜单数据相差很大,甚至与以往的任何一届奥运会的金牌榜数据都没有关系。可以说,对于此问题,是在“一本正经地胡说八道”。

(图源:澎湃新闻)

小冰公司首席执行官李笛认为,“目前从能获取到的知识,准确率是达不到90%的。”也就是说,看起来很“博学”,但它目前更多的是一个聊天工具,并不能当做一个搜索引擎来使用。

熟悉AI发展的互联网从业者李鸿儒说,的部分训练是基于从互联网上搜集的数据,因此它的输出结果会受到偏见和不准确信息的影响,这也是其真实性低的一个重要原因。

缺乏深度思考的能力

萨姆·奥特曼说,不断与聊天后,你会发现它说的都是正确的废话。

从当前的测试来看,提供的内容与回答通常是笼统的、整合性的信息,偏中庸和常规,而不是具有个性色彩的、创新性的回答。

也就是说虽然它在聊天连贯性和流畅度上和人类很“形似”,但实际上它并没有像人一样独立思考的能力和创造性的思维。

比如询问怎么看待某个产业、国家的发展趋势,应该提升的方向,它能提供与罗列的都是一些互联网已有的常规、大众、普适性内容,没有认知层面的观点。

识别图片中的答案_识别图片做题_chatgpt能不能识别图片里的题目

目前,只是在执行一个“搜索—整合—生成”的指令过程,并没有真正意义上的思考创造。

因此,生成的内容极大程度取决于资料来源,但缺乏对内容可靠程度负责的“自主心智”,更缺乏客观世界模型,无法对数学、物理与社会形成真实完整的理解。

存在泄露信息风险

北京盈科(上海)律师事务所互联网法律事务部主任谢连杰在谈到时说,依托海量数据库信息存在,其中包括大量的互联网用户自行输入的信息,因此当用户输入个人数据或商业秘密等信息时,可能将其纳入自身的语料库而产生泄露的风险。

亚马逊的公司律师称,他们在生成的内容中发现了与公司机密“非常相似”的文本,可能是由于一些员工在使用生成代码或者文本时输入了公司内部数据信息,该律师担心输入的信息可能被用作迭代的训练数据。随后亚马逊公司的律师警告员工不要向提供“任何亚马逊机密信息”。

摩根大通也限制员工在工作场所使用。就连微软员工也被告知不要将敏感数据发送给终端。

(图源:)

缺乏逻辑推理和计算能力

测试可以发现,其实是偏文科的,它有很强的资料整合能力,但缺乏数学计算以及逻辑推理

有用户在与的对话中,输入数学计算问题,一些稍微偏大计算量的数学题,基础版的计算器都能很快给出结果,而给出的答案却是错误的。还有一些逻辑推理问题,也无法给出正确的答案。

图 | 用户与的对话

很显然,简单的堆砌资料并不能解决数学问题,在模型训练方法上还需要进一步研究。

由此看来,缺乏人类的深度思考,缺乏逻辑推理以及数学计算方面的能力,也无法在复杂与专业内容上提供真正有启发性的、有干货的思考与观点,更无法把新知识纳入其中。

喧嚣过后,当前的问题和局限性值得思考,当然,它的发展前景也同样更值得期待。

02

局限性凸显,将走向何方?

不可否认,在人工智能领域已经实现了很大突破。但随着使用的人群和领域越来越广泛,它的局限性和问题将日益凸显,在技术上和应用场景上的发展值得探究。

技术上还需精进

在技术上,基于现有的基本原理和技术,在未来发展进程中必然会进一步提升自身的技术水平。

数据无法进行实时更新是的一个主要弱点。

因为的预训练数据库在进行训练后得到的是一个静态模型,缺乏对实时数据的学习机制,所以,不能理解和回答预训练数据库截至时间以后的事情,也就无法做到数据库的实时性更新。

中国科学院自动化所研究员张家俊说“这问题也是用户无法信赖的主要原因。因此,用户在一些关键信息的获取上还需要求助其他工具。”

面对这个问题,所属公司也一直在探索解决方案,例如训练的一个 GPT-3 的研究版本,能够与搜索引擎进行交互,通过实时搜索网络、总结信息并引用其来源来提供更准确的答案。

若能与搜索引擎有机结合,这边提出问题,那边搜索引擎通过搜索网络给出实时答案,这个问题将极大缓解。

目前,微软融入的新一代搜索引擎Bing已经上线,在Bing搜索结果页面的 Tab标签栏中和进行实时对话,就可以获得想要的结果,实时性问答的难题似乎得到了解决。

chatgpt能不能识别图片里的题目_识别图片做题_识别图片中的答案

图 | 新版Bing(图源:爱范儿公众号)

但随之,有不少用户表示在和Bing的交流过程中,发现其出现了脾气暴躁、侮辱用户、操纵用户情感等行为,看起来将应用到搜索引擎中这一方法,还有很长的路要走。

还有一种方式,就是将实时数据增加到原有的文本数据库中,并对原有数据库中的不实或者过时的信息进行更正,并以更新的文本数据库为基础,进行进一步的模型训练,以实现技术模型和应用工具的与时俱进。

除了提升数据库的实时性,今天刚发布的GPT-4在接收和输出信息媒介及准确率上有了显著提高。

GPT-4 发布后, 直接升级了 。众所周知,之前的版本只能处理文本信息,升级后的GPT-4是一个多模态的模型,它实现了多方面的飞跃式提升:能够接受图像和文本输入,比如给它一个带有文字的图片,它可以对图片进行解读或者回答用户提出的有关图片的问题;并且文字输入限制提升至2.5万字。

同时,GPT-4在回答问题的准确性上有了显著提高;它可以直接做物理题、看懂法语题目并能完整作答、还可以指出照片中的逻辑错误等。GPT-4已经不会在计算上胡言乱语了。

(图源:机器之心公众号)

在垂直领域,还需要针对某些特定领域进行专业化的模型训练。而刚发布的GPT-4在某些专业测试和学术基准上的水平已经可以达到人类水平的高度。比如:它通过了模拟律师考试,且分数在应试者的前10%左右,而之前的GPT-3.5模型的得分在倒数10%左右。

但即便如此,我们依然无法完全信任。表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。在准确率、专业化、逻辑推理等各方面还有待提升。

未来应用场景探索

的进一步发展离不开技术的应用和商业化。在文章中介绍了在当下已经应用的商业场景,包含用于智能客服、数字虚拟人、文案创作、数据分析等场景。

随着未来技术的不断完善,它的应用场景将更加广泛:

将技术整合进中

据美国科技媒体网站The Verge的一份新报告称,微软正计划在将聊天机器人技术整合到Word、和等应用程序中,实现办公软件写作等任务的自动化。

将应用于机器人

在微软推出新版Bing后不久,其在官网发表了一篇名为《机器人 :设计原则和模型能力( for : and Model )》的论文,公布了他们正在把应用于机器人上的研究成果。

(图源:每日经济新闻)

对此,伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利博士(Dr.Peter John )表示了赞同,他认为可以用来生成计算机代码,这些代码可以控制机器人,所以来控制机器人是完全可行的路径。

同时,基于先进的算法和感知技术,将有利于智能机器人在学习、推理、决策能力方面有质的提升,让机器人变得更“聪明”。

比如泳池清洁机器人在收到用户给出的泳池清洁指令后,它可以通过摄像头和传感器对泳池进行扫描,自行分析判定是池水需要清洁还是泳池壁需要清洁,然后进行下一步清洁工作。

与智能硬件结合

智能家居算是人工智能应用最早的领域,当下智能家居的发展主要是通过硬件按钮、语音、手势、自动感应、手机 APP等方式与IoT设备进行连接来控制家居产品的使用。

但目前的智能家居在操控性上比较生硬,比如语音控制的智能家居,通常需要先唤醒设备,然后进行指令发送,有时候设备还不能准确识别用户指令,体验感欠佳。

技术的出现,将有可能弥补智能家居交互体验不佳的情况。

基于分析理解能力,将能同时识别用户的多项指令,并理解用户指令的真实意图,为智能家居赋予“灵魂”。

© 版权声明

相关文章

暂无评论

暂无评论...