长期以来,人工智能领域一直因缺乏对其最基本问题的答案而受阻:究竟什么是智能?像GPT-4这样的人工智能凸显了这种不确定性:一些研究人员认为GPT模型显示出了真正智能的微光,但其他人不同意。
为了解决这些争论,我们需要具体的任务来确定和测试智能的概念,SFI的研究人员Arseny Moskvichev, Melanie Mitchell和Victor Vikram Odouard在一篇新论文中说,该论文计划发表在《机器学习研究交易》上,并发布在arXiv预印本服务器上。作者提供了这一点,并发现即使是最先进的人工智能在抽象和概括概念的能力上仍然远远落后于人类。
这个团队创造了e。估值puzzles-ba基于谷歌研究员franois chollet开发的一个领域,该领域专注于视觉类比制作,捕捉基本的co上面、下面、中间、里面、外面等概念。向人类和人工智能考生展示了几种模式演示管理一个公司概念,然后要求申请该公司除了一个不同的图像。下图显示了对同一性概念的检验。
这些视觉谜题对人类来说非常简单:例如,他们在88%的时间里正确地理解了相同的概念。但GPT-4表现不佳,只答对了23%的题目。因此,研究人员得出结论,目前,人工智能程序在视觉抽象推理方面仍然很弱。
“我们经常通过类比来推理,所以这就是为什么这是一个如此有趣的问题,”莫斯科维奇夫说。该团队使用了新颖的视觉谜题,确保机器之前没有遇到过它们。GPT-4是在互联网的大部分内容上进行训练的,所以重要的是要避免它可能已经遇到的任何东西,以确保它不只是鹦鹉学舌地模仿现有的文本,而不是展示自己的理解。这就是为什么最近的结果,比如人工智能在律师考试中取得好成绩的能力,并不能很好地测试其真正的智能。
该团队认为,随着时间的推移和人工智能算法的改进,开发评估程序将变得越来越困难和重要。我们不应该试图创建一个人工智能测试,而应该设计更精心策划的数据集,专注于智能的特定方面。“我们的算法越好,就越难弄清楚它们能做什么,不能做什么,”莫斯科维奇夫说。“因此,我们在开发评估数据集时需要非常周到。”
更多信息:Arseny Moskvichev等人,The ConceptARC Benchmark: evaluation Understanding and Generalization in ARC Domain, arXiv(2023)。期刊信息:arXiv .2305.07141
由圣达菲研究所提供
引用:研究:人工智能的视觉类比(2023年,9月26日)2023年9月26日检索自https://techxplore.com/news/2023-09-visual-analogies-ai.html
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。