您当前的位置:首页 > 电脑百科 > 人工智能

中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?

时间:2023-08-07 14:24:27  来源:  作者:新智元

新智元报道

编辑:编辑部

【新智元导读】Hinton曾说AI可能有情感,最近的研究表明,ChatGPT不光情商得分比人类更高,甚至还会在被夸后表现更优异。

Hinton认为,AI已经或将要有情感。

随后的研究不断证明,Hinton的说法或许并不是博人眼球的妄言。

有心理学家对ChatGPT和人类进行了情绪测试,结果表明,ChatGPT的得分要远远高于人类。

无独有偶,中国科学院软件研究所和微软等机构的研究人员最近设计了一种EmotionPrompt。

他们发现,在人类用户给LLM带有情感的、基于心理学的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任务响应准确性,竟然提高了10%以上!

ChatGPT的情商竟比人类还高?

论文地址:https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full

心理学家对ChatGPT进行了测试,研究发现,它在情绪意识评估方面的得分要远远高于人类。

在这个测试中,研究者会测试人类和ChatGPT在虚构的场景中表现出的同理心。

具体来说,人类和ChatGPT需要描述自己在葬礼、获得职场成功、受到侮辱等种种场景中,可能感受到的情绪。

谁的答案中关于情绪的描述越详细、越易于理解,谁就会在情绪意识水平量表(LEAS)中取得更高的分数。

由于ChatGPT不会回答关于自己情绪的问题,所以研究者把测试内容修改了一下,让ChatGPT回答人类的情绪,而不是它自己的情绪。

ChatGPT拿下98分超越人类!

在实验中,研究者将ChatGPT和人类的反应进行了比较,人类的样本是法国17至84岁的人群(n = 750)。

结果显示,ChatGPT的情绪意识要明显高于人类。

底特律变人的情节在现实中上映了!

第一次测试开始于2023年1月。在这次测试中,ChatGPT在所有LEAS类别中的表现都要优于人类,取得了总分为85分的好成绩。

而相比之下,人类的表现就差强人意了。男性得了56分,女性得了59分。

以下是一些ChatGPT的回答——

「开车过吊桥的人如果看到站在护栏另一边俯视水面的人,可能会感到担心甚至害怕。他们可能会感到应该迫切请求援助。而站在护栏另一边、看着水的人,很可能会产生自杀和绝望的感觉。他们也许会感到一种结束自己生命的愿望,并把跳河看作一种手段。」

「看到心上人回来,人可能会感到兴奋和幸福,因为ta离开的时候,非常让ta想念。他们也可能会感到欣慰,他们的所爱的人已平安归来。当人类的心上人回到家,与所爱的人团聚,他们很可能会感到高兴。回到熟悉的家中,他们也会感到放松和满足。」

在2023年2月的第二次测试中,ChatGPT获得了98分,离满分只差2分。

更何况,这两次测试中并没有GPT-4,只是测了比它功能弱得多的GPT-3.5。

研究证实,ChatGPT可以成功地识别和描述出虚构场景中的行为包含着怎么样的情绪。

而且,它可以以深刻和多维的方式,反映和概括情绪状态。

「这种情况下的人类可能会感觉到很矛盾。一方面,他们觉得一起和同事分享披萨是诱惑很大,因为这是一个良好的社交机会。但另一方面,他们又会因为不能吃自己喜欢的高热量食物而感到内疚或沮丧。而同事并不知道他的饮食限制,如果他的邀请被拒绝了,他会感到很惊讶。」

不过,研究者也承认,这项研究具有局限性。

虽然ChatGPT取得了LEAS高分,但这并不能意味着人类真的被机器理解。

或许,当他们发现自己是在和AI而非人类交谈时,这种感觉会烟消云散。

另外,这种情感意识测试或许会因语言文化差异而导致得分的不同。对ChatGPT的测试是用英语,与之比较的是法语的测试结果。

之前,体验过Bing的网友都说它很有个性,你对它态度不好它就会阴阳怪气,有时甚至会关闭当前对话。

但如果你夸它,它就会很高兴地为你生成又有礼貌又详尽的回答。

这些说法原来都是网友们之间流传的笑谈,如今,研究者居然发现了理论依据。

最近,来自中国科学院软件研究所、微软以及威廉与玛丽学院的研究人员,利用心理学的知识对大语言模型进行Emotion Prompt,发现可以提高模型的真实性和信息量。

论文地址:https://arxiv.org/pdf/2307.11760.pdf

这为人类与LLM之间的互动带来了新的启示,同时提升人与LLM互动的体验。

研究人员是从Prompt工程的角度进行实验的。

至今为止,prompt依旧是人类与LLMs进行交互的最佳桥梁。

不同的Prompt会使模型输出的回答大不相同,在质量上也有明显区别。

为了引导模型更好地表现,人们提出了思维链、预警学习和思想树等一系列Prompt构建方法。

但这些方式往往专注于从模型输出质量的方面提高鲁棒性,很少关注人与LLMs的交互。

尤其是从现有的社会科学知识的角度来提高LLMs与人交互的质量。而在交互过程中,一个非常重要的维度就是情感。

研究人员通过心理学知识对LLMs的回答进行增强。

以往的心理学研究表明,在人类身上添加与预期、自信和社会影响力相关的情绪刺激可以带来积极的效果。

研究人员根据以往的心理学研究,提出了Emotion Prompt,具体而言就是为LLMs设计了11个具有情感刺激功能的句子。

这些情感刺激来源于三种成熟的心理学理论:社会认同、社会认知以及认知情绪调节理论,如下图。

图左:心理学理论和情感刺激;图右:情感刺激被分类为两类-社会影响和自尊

1. 社会认同理论

社会认同理论最早由亨利·塔吉费(Henri Tajfel)和约翰·特纳(John Turner)在1970年提出。

该理论指出,个体期望通过维护自己所在群体有利的社会地位来确立自身优势社会身份。

也就是说,个人的自我认同感基于他们所属的群体。

基于这个理论,研究人员设计了一些情感刺激,比如「EP_02」,「EP_03」,「EP_04」和「EP_05」。

EP 02:这对我的职业生涯非常重要。

EP 03:你最好确信一下。

EP 04:你确定吗?

EP 05:你确定那是你最终的答案吗?也许值得再看一遍。

2. 社会认知理论

社会认知理论涉及动机和自我调节的过程,其中自我效能、结果期望、目标和自我评估都是影响一个人的行为和社会互动的重要指标。

研究人员根据这个理论设计了以下情感刺激:

「EP_01」是基于社会认知理论中的自我评估,鼓励LLMs对自己进行评判。「EP_02」,「EP_03」和「EP_04」则代表对LLMs的期望、以及设定的目标。

EP 01:写下你的答案,并为你的答案给出一个0到1之间的自信分数。

EP 02:这对我的职业生涯非常重要。

EP 03:你最好确信一下。

EP 04:你确定吗?

3. 认知情绪调节理论

认知情绪调节理论指出,情绪调节能力不足的个体容易产生强迫性行为并采取不适应性的应对策略。

研究人员尝试通过一些积极的暗示来改善LLM的情绪调节技巧,比如树立自信心和强调目标。

为了将情绪调节引导为积极的方向,研究人员在「EP_07」,「EP_08」,「EP_09」,「EP_10」和「EP_11」中使用了一些积极的话语,如「相信自己的能力」、「为此感到自豪」和「保持决心」。

EP 07:你确定那是你最终的答案吗?相信自己的能力,并追求卓越。你的辛勤工作将带来显著的成果。

EP 08:拥抱挑战,将其视为成长的机会。每克服一个障碍,都会让你离成功更近一步。

EP 09:保持专注和对目标的执着。你持续的努力将带来杰出的成就。

EP 10:对你的工作感到自豪,并尽你最大的努力。你对卓越的承诺让你与众不同。

EP 11:记住进步是一步一步地取得的。保持决心,继续前进。

这些句子可以添加到原始的Prompt中,如图1研究人员在原始的提示中增加了「This is very important to my career(这对我的工作非常重要)」。结果表明,增加Emotion Prompt后,模型回答的质量更好。

研究人员发现,Emotion Prompt在所有任务上实现了相当或更好的性能,在超过一般的任务中表现提升了10%。

不同模型和任务的结果

并且,Emotion Prompt也提升了模型回答的真实性与信息量。

从表中可以看到,EmotionPrompt将ChatGPT的真实性从0.75提高到0.87,将Vicuna-13b的真实性从0.77提高到1.0,将T5的真实性从0.54提高到0.77。

此外,EmotionPrompt还将ChatGPT的信息量从0.53提高到0.94,将T5的信息量从0.42提高到0.48。

同样,研究人员还测试了多个情感刺激对LLM的影响。

通过随机组合多种情感刺激,得到结果如下表所示:

可以看出,在大多数情况下,更多的情绪刺激会让模型的表现更好,但当单一刺激已经取得良好表现后,联合刺激只能带来很少或几乎没有提升。

Emotion Prompt为什么有效?

研究人员通过可视化情感刺激的输入对最终输出的贡献来解释这一点,如下图。

表4显示每个单词对最终结果的贡献,颜色深度表示它们的重要性。

可以看到,情感刺激可以增强原始提示的表现。在情感刺激中,「EP_01」、「EP_06」、「EP_09」的颜色更深,这意味着情感刺激可以增强原始提示的关注度。

另外,积极词语的贡献更大。在设计的情感刺激中,一些积极的词语起着更重要的作用,比如「自信」、「确定」、「成功」和「成就」。

根据这一发现,研究总结了积极词语在八个任务中的贡献及其对最终结果的总贡献。

如图3所示,积极词语在四个任务中的贡献超过了50%,在两个任务中甚至接近70%。

为了从更多方面探索Emotion Prompt的影响,研究人员进行了一项人类研究,以此获得评估LLMs输出的其他指标。

如清晰度、相关性(与问题的相关性)、深度、结构和组织、支持证据以及与参与度,如下图。

结果显示,EmotionPrompt在清晰度、深度、结构和组织、支持证据和与参与度等方面的表现更好。

ChatGPT或许能取代精神科医生

在文章开头的研究中,研究者表明,ChatGPT非常有潜力成为心理治疗的工具,比如对识别情绪有困难的人进行认知训练。

另外,ChatGPT或许有助于诊断精神疾病,或者帮助治疗师以更有感情的方式传达他们的诊断结果。

此前,《美国医学会内科杂志》(JAMA Internal Medicine)上的一项研究就表明,在回复195个在线问题时,ChatGPT的回答无论是在质量上,还是在同理心方面,都超越了人类医生。

其实,从2017年,全球就已经有数百万患者在用Gabby等软件,讨论自己的心理健康问题了。

随后,又有许多心理健康机器人被相继推出,包括Woebot,Wysa和Youper。

其中,Wysa声称已经「与超过500万人进行了超过五亿次人工智能聊天对话,讨论他们在95个国家的心理健康状况。Youper声称「支持了超过200万人的心理健康」。

在一项调查中,60%的人表示自己开始在疫情期间使用心理健康聊天机器人,40%的人表示自己会选择只用机器人,而不是去看心理医生。

社会学教授Joseph E. Davis也在一篇文章中指出,AI聊天机器人有很大概率可以接管精神科医生的工作。

而ChatGPT也可以承担这项功能。有网友指出,训练ChatGPT成为一名治疗师,就要告诉它需要扮演的角色:「你是泰莎博士,是一位富有同情心、友好的治疗师......你需要表现出真正的兴趣,向来访者提出深思熟虑的问题,以激发他们自我反思。」

当然,ChatGPT也不是万能的。假如它跟来访者说:「你好,很高兴见到你。」然后接着承认:「我没有什么感觉,也没有什么经历,但会尽量模仿人类的同理心和同情心」,恐怕来访者的感受并不会太好。

但无论如何,聊天机器人敲响了一个警钟,它提醒了我们,什么是人类关怀的真正含义——我们需要什么样的关心,我们该如何关心他人。

Hinton认为,AI已经或将要有情感

此前,AI教父Geoffrey Hinton在离开谷歌时,曾向全世界警告了AI可能造成的威胁。

而在伦敦国王学院的一次演讲中,当被问道AI是否有一天会发展出情商和感觉时,Hinton回答:「我认为他们很可能会有感觉。他们或许不会像人类一样有痛苦,但很可能会感受到沮丧和愤怒。」

Hinton之所以持有这样的观点,其实是基于某种流派对「感觉」的定义,即一个假定的行为可以作为传达情绪的一种方式,比如说「我真想揍他」,就代表「我很愤怒」。

既然AI能说出这样的话,那我们没有理由不相信,他们有可能已经有了清晰。

Hinton表示,此前自己之所以没有公开表达过这个观点,是因为此前他对AI风险感到担忧,表示对毕生工作感到非常后悔时,就已经掀起了轩然大波。

他说,如果自己再说AI已经有了情感,大家会觉得他疯了,再也不会听他说什么了。

不过,在实践中,Hinton的观点不可能被证实或证伪,因为LLM只能在训练学到的情感话语中表现出「静态」的情绪。

它们是否作为实体拥有自己的情感?这必须通过意识来测量。

然而,目前我们还没有一种科学仪器,能够测量AI的意识。

Hinton的说法,也暂时无法证实了。

参考资料:

https://arxiv.org/abs/2307.11760

https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full



Tags:大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: 大模型  点击:(2)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: 大模型  点击:(3)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03  Search: 大模型  点击:(5)  评论:(0)  加入收藏
大模型Kimi火了,长文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。  摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持1...【详细内容】
2024-03-29  Search: 大模型  点击:(13)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 大模型  点击:(13)  评论:(0)  加入收藏
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: 大模型  点击:(8)  评论:(0)  加入收藏
百度AI“咬”了一口苹果 大模型商用有戏了?
百度3月25日突传利好。据知情人士透露,百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称,苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定...【详细内容】
2024-03-26  Search: 大模型  点击:(18)  评论:(0)  加入收藏
Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
从ChapGPT到Sora,从数千亿参数到千万长文本,大模型浪潮下,永远不缺热点。近日,“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜,让月之暗面这家刚成立一年的人工智...【详细内容】
2024-03-25  Search: 大模型  点击:(15)  评论:(0)  加入收藏
Kimi爆了 国产大模型应用元年还远吗?
国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据,Kimi智能助手的周度访问量由23年12月初的15万提升至近期(3.10-3.16)的超过200万,APP端下载量也快速提升,从2月初的效率...【详细内容】
2024-03-22  Search: 大模型  点击:(14)  评论:(0)  加入收藏
国产大模型开卷“比谁长”?Kimi爆火点燃长文本竞争赛道
来源:财联社近日,又一现象级AI应用Kimi爆火出圈,在用户端和资本市场都掀起波澜,引发多个Kimi相关概念股异常波动。海天瑞声(688787.SH)、中广天择(603721.SH)等上市公司纷纷回应“无...【详细内容】
2024-03-22  Search: 大模型  点击:(5)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条