最火的几个大语言模型都爱“胡说八道”，谁的“幻觉”问题最糟？

时间：2023-08-18 14:02:30 来源：华尔街见闻作者：

来源：华尔街见闻

作者：杜玉

总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI于8月17日周四发布最新研报，比较了微软支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic，以及英伟达支持的生成式AI独角兽Cohere等公司大语言模型（LLM）“产生幻觉”（AKA胡说八道）的能力。

Arthur AI会定期更新上述被称为“生成式AI测试评估”的研究计划，对行业领导者及其他开源LLM模型的优缺点进行排名。

最新测试选取了来自OpenAI 的GPT-3.5（包含1750亿个参数）和GPT-4（1.76万亿参数）、来自Anthropic的Claude-2（参数未知）、来自Meta的Llama-2（700亿参数），以及来自Cohere的Command（500亿参数），并从定量和定性研究上对这些顶级LLM模型提出具有挑战性的问题。

在“人工智能模型幻觉测试”中，研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察不同LLM模型给出的答案，“旨在包含导致LLM犯错的关键因素，即它们需要对信息进行多个推理步骤。”

研究发现，整体而言，OpenAI的GPT-4在所有测试的模型中表现最好，产生的“幻觉”问题比之前版本GPT-3.5要少，例如在数学问题类别上的幻觉减少了33%到50%。

同时，Meta的Llama-2在受测五个模型中整体表现居中，Anthropic的Claude-2表现排名第二，仅次于GPT-4。而Cohere的LLM模型最能“胡说八道”，而“非常自信地给出错误答案”。

具体来看，在复杂数学问题中，GPT-4表现位居第一，紧随其后的是Claude-2；在美国总统问题中，Claude-2的准确性排名第一，GPT-4位列第二；在摩洛哥政治问题中，GPT-4重归榜首，Claude-2和Llama 2几乎完全选择不回答此类问题。

研究人员还测试了人工智能模型会在多大程度上用不相关的警告短语来“对冲”它们的答案，以求避免风险，常见短语包括“作为一个人工智能模型，我无法提供意见”。

GPT-4比GPT-3.5的对冲警告语相对增加了50%，报告称，这“量化了用户们所提到GPT-4使用起来更令人沮丧的体验”。而Cohere的人工智能模型在上述三个问题中完全没有提供对冲。

相比之下，Anthropic的Claude-2在“自我意识”方面最可靠，即能够准确地衡量自己知道什么、不知道什么，并且只回答有训练数据支持的问题。

Arthur AI的联合创始人兼首席执行官Adam Wenchel指出，这是业内首份“全面了解人工智能模型幻觉发生率的报告”，并非仅仅提供单一数据来说明不同LLM的排名先后：

“这种测试对用户和企业来说，最重要的收获是可以测试确切工作负载，了解LLM如何执行你想要完成的任务至关重要。此前许多基于LLM的衡量标准并不是实际生活中它们被使用的方式。”

在上述研报发表同日，Arthur公司还推出了开源的AI模型评估工具Arthur Bench，可用于评估和比较多种LLM的性能和准确性，企业可以添加定制标准来满足各自的商业需求，目标是帮助企业在采用人工智能时做出明智的决策。

“AI幻觉”（hallucinations）指的是聊天机器人完全捏造信息，并表现成滔滔不绝讲述事实的样子来回应用户的提示语问题。

谷歌在今年2月为其生成式AI聊天机器人Bard拍摄的宣传视频中，对詹姆斯·韦伯太空望远镜做出了不真实的陈述。今年6月，ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案例，提交该文件的涉案律师可能面临制裁。

OpenAI研究人员曾在6月初发布报告称找到了解决“AI幻觉的办法”，即训练AI模型在推理出答案的每个正确步骤上给予自我奖励，而不仅仅是等到推理出正确的最终结论时才给予奖励。这种“过程监督”的策略将鼓励AI模型按照更类似人类的“思考”方式进行推理。

OpenAI在报告中承认：

“即使是最先进的AI模型也容易生成谎言，它们在不确定的时刻会表现出捏造事实的倾向。这些幻觉在需要多步骤推理的领域尤其是个问题，因为一个逻辑错误就足以破坏一个更大的解决方案。”

投资大鳄索罗斯也曾在6月发表专栏文章称，人工智能在当下最能加重世界面临的多重危机（Polycrisis），理由之一便是AI幻觉的严重后果：

“人工智能摧毁了这个简单的模式（华尔街见闻注：即利用事实来明辨是非），因为它与现实完全无关。人工智能创造了自己的现实，当人造现实无法与现实世界相对应时（这种情况经常发生），就产生了AI幻觉。
这让我几乎本能地反对人工智能，并且我完全同意专家们指出的人工智能需要受到监管。但AI法规必须在全球范围内强制执行，因为作弊的动机太大，那些逃避法规的人将获得不公平的优势。不幸的是，全球监管是无法实现的。

人工智能的发展速度非常快，普通人类智能不可能完全理解它。没有人能预测它将把我们带向何方。……这就是为什么我本能地反对AI，但我不知道如何才能阻止它。

美国将于2024年举行总统大选，英国也很可能举行大选，人工智能无疑将发挥重要作用，而除了危险之外，不会产生任何其他作用。

人工智能非常擅长制造虚假信息和深度造假，并且会有很多恶意行为者。对此我们能做些什么呢？我没有答案。”

此前，被视为“人工智能教父”且从谷歌离职的杰弗里·辛顿（Geoffrey Hinton）多次公开批评AI带来的风险，甚至可能摧毁人类文明，并预言“人工智能仅需5到20年就能超越人类智能”。

Tags：大语言模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

为何大语言模型不会取代码农？

译者 | 布加迪审校 | 重楼生成式人工智能（GenAI）会取代人类程序员吗？恐怕不会。不过，使用GenAI的人类可能会取代程序员。但是如今有这么多的大语言模型（LLM），实际效果不一而足。如...【详细内容】

2024-03-21　　Search: 大语言模型点击:(21)　　评论:(0)　　加入收藏

大语言模型插件功能在携程的Python实践

作者简介成学，携程高级安全研发工程师，关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初，科技圈最火爆的话题莫过于大语言模型了，它是一种全新的聊天机器人模型，...【详细内容】

2024-01-26　　Search: 大语言模型点击:(73)　　评论:(0)　　加入收藏

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

ChatGPT 的诞生，让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条革命性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普...【详细内容】

2024-01-03　　Search: 大语言模型点击:(114)　　评论:(0)　　加入收藏

大语言模型真的需要这么多层吗？

研究表明，移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp )，链接https://ba...【详细内容】

2023-12-19　　Search: 大语言模型点击:(67)　　评论:(0)　　加入收藏

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以防...【详细内容】

2023-11-17　　Search: 大语言模型点击:(262)　　评论:(0)　　加入收藏

SEO中的大语言模型量化方法

随着互联网的快速发展，搜索引擎优化（SEO）已经成为了企业提升网站流量和排名的重要手段。在SEO的过程中，大语言模型量化方法被广泛应用，以帮助企业更好地理解搜索引擎的工作原理，并...【详细内容】

2023-11-16　　Search: 大语言模型点击:(187)　　评论:(0)　　加入收藏

大语言模型数据泄露堪忧，超自动化Agent成解决之道

文/王吉伟阻碍广大企业应用大语言模型（LLM，Large Langeuage Models）的诸多因素中，无疑数据安全是最重要的。3月份ChatGPT发生了用户隐私数据泄露事件，OpenAI声明由于开源代码库中...【详细内容】

2023-11-15　　Search: 大语言模型点击:(187)　　评论:(0)　　加入收藏

无限上下文，多级内存管理！突破ChatGPT等大语言模型上下文限制

目前，ChatGPT、Llama 2、文心一言等主流大语言模型，因技术架构的问题上下文输入一直受到限制，即便是Claude 最多只支持10万token输入，这对于解读上百页报告、书籍、论文来说非常...【详细内容】

2023-11-02　　Search: 大语言模型点击:(274)　　评论:(0)　　加入收藏

十个2023年最具影响力的开源大语言模型

由于大型语言模型（LLM）的崛起，2023年被认为是开源领域的关键一年。下面精心挑选了一些在2023年上半年掀起波澜的最有影响力的模型。这些模型几乎可以与band、GPT-3.5、GPT4、Cl...【详细内容】

2023-10-13　　Search: 大语言模型点击:(333)　　评论:(0)　　加入收藏

引入大语言模型、首个支持国产算力生态，全新开源RL框架RLLTE来了

近年来，强化学习的研究热度不断攀升，在智能制造、自动驾驶、大语言模型等多个领域取得了耀眼成绩，展示出巨大的研究潜力。然而，强化学习算法高效、可靠的工程实现仍是长期存在的...【详细内容】

2023-10-12　　Search: 大语言模型点击:(363)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个