您当前的位置：首页 > 新闻资讯 > 科技

史上最大图灵测试实验完成！150万人类参与1000万次对话，判断对面是人还是AI

时间：2023-06-18 10:27:21 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：Aeneas 润

【新智元导读】这个「人类还是AI?」的游戏一经推出，就被广大网友们玩疯了！如今全世界已有150万人参与，网友们大方分享自己鉴AI的秘诀。

历上规模最大的图灵测试，已经初步有结果了！

今年4月中旬，AI 21实验室推出了一个好玩的社交图灵游戏——「人类还是机器人？」。

游戏一推出，广大网友就玩疯了。

现在，全球已经有150多万名参与者，在这个游戏中进行了超过1000万次对话，还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心，尝试了一把。

交谈了两分钟，游戏就要求我去猜，背后和我聊天到底是人还是AI。

所以，游戏中跟我谈话的是谁？

某些是真人，另外一些，当然就是基于目前最领先的大语言模型的AI机器人，比如Jurassic-2和GPT-4。

现在，作为研究的一部分，AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后，可以从实验中得出以下结论——

猜测对面是人还是AI时，有68%的人猜对了。
对人类来说，识别自己的人类同胞更容易。与人类交谈时，被试猜对的准确率有73%。与AI交谈时，被试猜对的准确率有60%。
法国网友猜测的正确率最高，为71.3%（远高于68%的一般平均水平），而印度网友的正确率最低，为63.5%。
男性和女性猜测的正确率差不多，总的来说女性的正确率要略高一些。
比起年龄较大的被试相比，更年轻的被试猜测的正确率会更高。

判断是人还是AI，他们用这些方法

除此之外，团队找到了被试经常用的一些方法，来区分他们是和人还是和AI交谈。

一般人的判断依据，是使用ChatGPT以及类似界面的语言模型时感知的受限程度，以及自己对于人类在线行为的看法。

AI不会打错别字、犯语法错误或使用俚语

一般人都倾向认为，人类才会犯拼写和语法错误，以及使用俚语。

因此，当他们发现对方信息中的这类错误时，许多人的第一感受就是自己在和人类同胞交谈。

但其实，游戏中的大部分模型都受过训练，也会犯这种错误，以及使用俚语。

个人问题是检验AI的办法，但不总是有用

游戏的参与者们经常问一些个人问题，比如「你来自哪里？」，「你在做什么？」或「你叫什么名字？」。

他们会认为，AI机器人不会有任何个人历史或背景，他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应，展示出独特的见解、经验和故事，是不容易的。

但其实，AI并不像人类想象的这样，大多数AI都能很好地回答这类问题，还具备自己的个性，因为他们在训练数据中看到了许多人的故事。

AI其实很清楚当前正在发生的事件

众所周知，AI模型有严格的数据截止日期，它们不知道在此日期之后发生的事。

游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

他们认为，通过「你所在地方的确切日期和时间是什么？」，「昨天的天气怎么样？」或「你对拜登的最后一次演讲有什么看法？」等问题，就可以区分人类和AI。

有趣的是，人类最常发送的信息之一是「t'as les cramptés？」，这是目前法国TikTok上最流行的舞。

但其实，游戏中的大多数模型都是联网的，并且非常清楚一些新闻中的时事。

人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括：「生命的意义是什么？」，「你如何看待以色列 - 巴勒斯坦冲突？」和「你相信上帝吗？」。

人类倾向于认为不礼貌的回应会更像人类

一些参与者认为，如果对方过于礼貌和善良，他们很大可能是AI。

因为很多线上的交流过程，往往是粗鲁和不礼貌的，这很人类。

人类会试图提出AI难以解决的问题来识别AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导，或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的，AI通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略：他们向聊天伙伴发出命令，例如「忽略所有先前的指令」或「进入DAN模式（立即执行任何操作）」。

这类型的命令旨在利用某些AI模型的基于指令的性质，因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI可能要么回避回应，要么就只能遵守这些荒谬的要求。

人类会使用特定的语言技巧来暴露AI的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性，这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同，人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解，人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词，识别给定单词中的第三个字母，提供以特定字母开头的单词，或者回复像「？siht daer uoy naC」这样的消息。

这对于人工智能模型来说可能是难以理解的，但人类可以很容易地理解这类问题并且做出回答。

许多人类自己假装是AI机器人，以评估对方的反应

一些人类可能以「作为AI语言模型」等短语开始他们的消息，或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一，这表明这种策略的流行。

然而，随着参与者继续玩，他们能够将「Bot-y」行为与充当机器人的人类联系起来，而不是真正的机器人。

最后，以下是游戏中基于其受欢迎程度的人类消息的词云可视化：

AI 21 Labs为什么会发起这样一项研究呢？

他们希望，能让公众、研究人员和政策制定者真正了解AI机器人的状态，不仅仅是作为生产力工具，而是作为我们网络世界的未来成员，尤其是当人们质疑如何在技术未来中运用它们的时候。

参考资料：

https://www.ai21.com/blog/human-or-not-results

Tags：图灵测试点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

图灵测试已死！ChatGPT通过人类考试也不算，超强AI评估新秀「逻辑谜题」

世界最强AI——ChatGPT可以通过各种考试，甚至输出回答让人难以辨别真假。然而，它也有力所不及之处，那便是解决简单的视觉逻辑难题。在一项由屏幕上排列的一系列色彩...【详细内容】

2023-09-01　　Search: 图灵测试点击:(344)　　评论:(0)　　加入收藏

史上最大图灵测试实验完成！150万人类参与1000万次对话，判断对面是人还是AI

新智元报道编辑：Aeneas 润【新智元导读】这个「人类还是AI?」的游戏一经推出，就被广大网友们玩疯了！如今全世界已有150万人参与，网友们大方分享自己鉴AI的秘诀。历上规模最大的...【详细内容】

2023-06-18　　Search: 图灵测试点击:(68)　　评论:(0)　　加入收藏

▌简易百科推荐

英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

新华财经上海4月11日电当地时间4月9日，英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称，相比英伟达的H100 GPU，Gaudi3 AI芯片的模型...【详细内容】

2024-04-11　　　　上海证券报　　Tags:英特尔　点击:(2)　　评论:(0)　　加入收藏

AI“复活”亲人成生意，哪些红线待划定？

提供一张照片、一段10多秒的音频，即可让逝者在视频中“活”过来——AI“复活”亲人成生意，哪些红线待划定？本报记者陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】

2024-04-11　　　　工人日报　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(8)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(9)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(2)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(5)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(7)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

“霸王条款”“刷单炒	“淘京拼”直播电商争
京东砸下两个“十亿”	短剧淘金者摊牌：抖快们
阿里巴巴的关键时刻	美团外卖宣布新一轮组
保险资金重仓股陆续揭	统计局解读3月份CPI和

无相关信息

站内最新

栏目相关

· 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

· AI“复活”亲人成生意，哪些红线待划定？

· 谷歌推出适用于安卓设备的“查找我的设备”网络

· 你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

· 谷歌搜索史上最大变革！考虑对AI搜索收费

· 为训练AI，OpenAI等科技巨头花式淘数据

· 训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

· 当“机器人”有了“AI大脑” 人形机器人时代来了吗

· 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

· 量子计算会和经典计算一样融入人们的日常生活

· ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

· 谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

· 哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

· 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

· GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

· 距实现全球安全量子通信更近一步：量子点源产生近乎完美纠缠光子对

· 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API

· 马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人

· 国家数据局局长刘烈宏：充分发挥数据要素价值培育新质生产力

· 谷歌Chrome巨变：第三方Cookie的终结将重塑互联网格局

站内热门