您当前的位置:首页 > 电脑百科 > 人工智能

图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

时间:2023-09-01 11:58:20  来源:新智元  作者:

世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假。

然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题。

在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能找出连接的图案。

但是,根据研究人员今年 5 月的一份报告,GPT-4在一类图案的测试中正确率仅为1/3,而在另一类图案中正确率仅为3%。

论文地址:https://arxiv.org/pdf/2305.07141.pdf

这项研究背后的团队,旨在为了测试AI系统的能力提供一个更好的基准,并帮助解决GPT-4等大型语言模型的难题。

论文作者Melanie Mitchell表示,人工智能领域的人们正在为如何评估这些系统而苦苦挣扎。

AI评估如何有效?

在过去的两三年里,LLM 在完成多项任务的能力上已经超越了以前的人工智能系统。

它们的工作原理很简单,就是根据数十亿在线句子中单词之间的统计相关性,在输入文本时生成可信的下一个单词。

对于基于LLM构建的聊天机器人来说,还有一个额外的元素:人类训练员提供了大量反馈,以调整机器人的反应。

令人惊叹的是,这种类似于自动完成的算法是在大量人类语言存储的基础上训练出来的,其能力的广度令人叹为观止。

其他人工智能系统可能会在某项任务中击败 LLM,但它们必须在与特定问题相关的数据上进行训练,无法从一项任务推广到另一项任务。

哈佛大学的认知科学家Tomer Ullman表示,从广义上讲,对于LLM背后发生的事情,两个阵营的研究人员持有截然相反的观点。一些人将算法的成就归因于推理或理解的闪光点。其他人(包括他自己和Mitchell等人)则要谨慎得多。

讨论双方的研究人员表示,像逻辑谜题这样揭示人类与AI系统能力差异的测试,是朝着正确方向迈出的一步。

纽约大学认知计算科学家Brenden Lake说,这种基准测试有助于揭示当今机器学习系统的不足之处,并理清了人类智能的要素。

关于如何最好地测试LLM,以及这些测试意义的研究也很实用。

Mitchell说,如果要将LLM应用于现实世界的各个领域,比如医学、法律。那么了解它们的能力极限就非常重要。

图灵测试死了吗?

长期以来,机器智能最著名的测试一直是图灵测试。

图灵测试是英国数学家和计算大师艾伦·图灵在1950年提出,当时计算机还处于起步阶段。

图灵提出了一个评估,他称之为「模仿游戏」。

在这个场景中,「人类法官」与一台计算机、和一个看不见的人进行简短的、基于文本的对话。

这个人类能可靠地检测出哪台是计算机吗?图灵表示,这是一个相当于「机器能否思考」的问题。

Mitchell指出,图灵并没有具体说明场景的许多细节,因此没有确切的标准可循。

其他研究人员认为,GPT-4和其他LLM现在很可能通过了「图灵测试」,因为它们可以骗过很多人,至少是在短对话中。

5月,AI21实验室的研究人员报告说,超过150万人玩过他们基于图灵测试的在线游戏。

玩家正确识别机器人的比例仅为60%,这并不比偶然性好多少。

然而,在这种游戏中,熟悉LLM的研究人员可能仍然会获胜。通过利用AI系统的已知弱点,就会很容易发现LLM。

关键是要让LLM走出自己的「舒适区」。

谷歌软件工程师François Chollet建议,向LLM演示一些场景,这些场景是LLM在其训练数据中经常看到的场景的变体。在许多情况下,LLM的回答方式是,吐出最有可能与训练数据中的原始问题相关联的单词,而不是针对新情景给出的正确答案。

然而,Chollet和其他人对,把以欺骗为中心的测试作为计算机科学的目标持怀疑态度。

基准测试有危险

相反,研究人员在评估人工智能系统时,通常不采用图灵测试,而是使用旨在评估特定能力(如语言能力、常识推理和数学能力)表现的基准。

越来越多的研究团队也开始转向,为人类设计的学术和专业考试。

GPT-4发布时,OpenAI在一系列专为机器设计的基准测试中测试了其性能,包括阅读理解、数学和编码。

根据技术报告,GPT-4在其中大部分测试中都取得了优异成绩。

此外,GPT-4还参加了30项考试,GRE、评估美国医生临床知识现状的考试、为美国高中生设计的各种特定科目的考试等等。

后来,有研究人员提到的一个挑战是,模型是在大量文本中训练出来的,它们可能已经在训练数据中看到过类似的问题,因此实际上可能是在寻找答案。这个问题其实被「污染」了。

研究人员还指出,LLM在考试问题上的成功可能一击就破,可能无法转化为在现实世界中所需的强大能力。

在解释这些基准的含义时,还有一个更深层次的问题。

一个在考试中表现出色的人,一般可以被认为在其他认知测试中表现出色,并且掌握了某些抽象概念。

然而,LLM工作方式与人类截然不同。因此,用我们评判人类方式,来推断人工智能系统,并不总是有效的。

这可能是因为LLM只能从语言中学习。如果没有在物理世界中,它们无法像人那样体验语言与物体、属性和情感的联系。

很明显,他们理解单词的方式与人类不同。

另一方面,LLM 也拥有人类所不具备的能力,比如,它们知道人类写过的几乎每一个单词之间的联系。

OpenAI的研究员Nick Ryder也认为,一项测试的表现可能,不会像获得相同分数的人那样具有普遍性。

他表示,我认为,我们不应该从对人类和大型语言模型的评估中得出任何等价的结论。OpenAI 的分数 "并不代表人类的能力或推理能力。它的目的是说明模型在该任务中的表现如何。

人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审查。丰富多彩的逻辑谜题可能是其中的一个候选者。

逻辑谜题登场

2019年,在LLM爆发之前,Chollet在网上发布了,自己创建的一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC) 。

解题者要看几个方格变为另一种图案的可视化演示,并通过指出下一个方格将如何变换来表明他们已经掌握了变化的基本规则。

Chollet表示,ARC 捕捉到了「人类智慧的标志」。从日常知识中进行抽象,并将其应用于以前从未见过的问题的能力。

当前,几个研究团队现在已经使用ARC来测试LLM的能力,没有一个能实现接近人类的表现。

Mitchell和她的同事制作了一系列新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同。

ConceptARC测试更容易。Mitchell的团队希望确保基准测试,不会错过机器能力的进步,哪怕是很小的进步。另一个区别是,团队选择特定的概念进行测试,然后为每个主题的变体概念创建一系列谜题。

性能差意味着什么

研究人员将ConceptARC任务分配给GPT-4和400名在线应征者。

人类在所有概念组中的平均得分率为 91%(其中一组为 97%);GPT-在一组中的得分率为33%,在所有其他组中得分不到30%。

研究人员证明,AI仍然无法接近人类的水平。然而令人惊讶的是,它能解决一些从未被训练过的问题。

研究小组还测试了Chollet竞赛中的领先聊天机器人。

总的来说,他们比GPT-4做得更好,但表现比人类差,在一个类别中得分最高,为77%,但在大多数类别中得分不到60%。

不过,Bowman表示,GPT-4在ConceptARC考试中的失利并不能证明它缺乏基本的抽象推理能力。

其实,ConceptARC对GPT-4有些不利,其中一个原因是它是一项视觉测试。

目前,GPT-4仅能接受文本作为输,因此研究人员给GPT-4提供了代表图像的数字数组。相比之下,人类参与者看到了图像。

推理论证

Bowman指出,与其他实验综合起来表明,LLM至少已经获得了对抽象概念进行推理的基本能力。

但LLM的推理能力总体上是「参差不齐的」,比人类的推理能力更有限。不过,随着LLM的参数规模扩大,推理能力相应地也会提高。

许多研究人员一致认为,测试LLM抽象推理能力和其他智力迹象的最佳方法,仍然是一个开放的、未解决的问题。



Tags:图灵测试   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」
世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假。然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题。在一项由屏幕上排列的一系列色彩...【详细内容】
2023-09-01  Search: 图灵测试  点击:(344)  评论:(0)  加入收藏
史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI
新智元报道编辑:Aeneas 润【新智元导读】这个「人类还是AI?」的游戏一经推出,就被广大网友们玩疯了!如今全世界已有150万人参与,网友们大方分享自己鉴AI的秘诀。历上规模最大的...【详细内容】
2023-06-18  Search: 图灵测试  点击:(67)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条