人工智能的“胡言乱语”，有没有解法？

时间：2023-08-31 11:42:00 来源：作者：陈根

文 | 陈根

AI大模型的成功带来了前所未有的“智能涌现”，人们对即将到来的AI时代充满期待。

然而，在科技巨头们涌向AI赛道、人们乐此不疲地实验和讨论AI的强大功能，并由此感叹其是否可能取代人类劳动时，AI幻觉问题也越来越不容忽视，成为AI进一步发展的阻碍。Yann LeCun——世界深度学习三巨头之一，“卷积神经网之络父”——在此前的一次演讲中，甚至断言“GPT模型活不过5年”。

随着AI幻觉争议四起，大模型到底能够在行业中发挥多大作用，是否会产生副作用，也成为一个焦点问题。AI幻觉究竟是什么？是否真的无解？

AI大模型的“胡言乱语”

人类会胡言乱语，人工智能也会。一言以蔽之，人工智能的胡言乱语，就是所谓的“机器幻觉”。

具体来看，AI幻觉就是大模型生成的内容在表面上看起来是合理的、有逻辑的，甚至可能与真实信息交织在一起，但实际上却存在错误的内容、引用来源或陈述。这些错误的内容以一种有说服力和可信度的方式被呈现出来，使人们在没有仔细核查和事实验证的情况下很难分辨出其中的虚假信息。

AI幻觉可以分为两类：内在幻觉（Intrinsic Hallucination）和外在幻觉（Extrinsic Hallucination）。

所谓内在幻觉，就是指AI大模型生成的内容与其输入内容之间存在矛盾，即生成的回答与提供的信息不一致。这种错误往往可以通过核对输入内容和生成内容来相对容易地发现和纠正。

举个例子，我们询问AI大模型“人类在哪年登上月球”？（人类首次登上月球的年份是1969年）然而，尽管AI大模型可能处理了大量的文本数据，但对“登上”、“月球”等词汇的理解存在歧义，因此，可能会生成一个错误的回答，例如“人类首次登上月球是在1985年”。

相较于内在幻觉，外在幻觉则更为复杂，它指的是生成内容的错误性无法从输入内容中直接验证。这种错误通常涉及模型调用了输入内容之外的数据、文本或信息，从而导致生成的内容产生虚假陈述。外在幻觉难以被轻易识别，因为虽然生成的内容可能是虚假的，但模型可以以逻辑连贯、有条理的方式呈现，使人们很难怀疑其真实性。通俗的讲，也就是AI在“编造信息”。

想象一下，我们在AI聊天，向其提问：“最近有哪些关于环保的新政策？”AI迅速回答了一系列看起来非常合理和详细的政策，这些政策可能是真实存在的。但其中却有一个政策是完全虚构的，只是被AI编造出来。这个虚假政策可能以一种和其他政策一样有逻辑和说服力的方式被表述，使人们很难在第一时间怀疑其真实性。

这就是外在幻觉的典型例子。尽管我们可能会相信AI生成的内容是基于输入的，但实际上它可能调用了虚构的数据或信息，从而混入虚假的内容。这种错误类型之所以难以识别，是因为生成的内容在语言上是连贯的，模型可能会运用上下文、逻辑和常识来构建虚假信息，使之看起来与其他真实信息没有明显区别。

AI为什么会产生幻觉？

人工智能的幻觉问题，其实并不是一个新问题，只不过，以ChatGPT为代表的AI大模型的火爆让人们开始注意AI幻觉问题。那么，AI幻觉究竟从何而来？又将带来什么危害？

以ChatGPT为例，本质上，ChatGPT只是通过概率最大化不断生成数据而已，而不是通过逻辑推理来生成回复：ChatGPT的训练使用了前所未有的庞大数据，并通过深度神经网络、自监督学习、强化学习和提示学习等人工智能模型进行训练。目前披露的ChatGPT的上一代GPT-3模型参数数目高达1750亿。

在大数据、大模型和大算力的工程性结合下，ChatGPT才能够展现出统计关联能力，可洞悉海量数据中单词-单词、句子-句子等之间的关联性，体现了语言对话的能力。正是因为ChatGPT是以“共生则关联”为标准对模型训练，才会导致虚假关联和东拼西凑的合成结果。许多可笑的错误就是缺乏常识下对数据进行机械式硬匹配所致。

不久前，两项来自顶刊的研究就表明：GPT-4可能完全没有推理能力。第一项研究来自麻省理工的校友 Konstantine Arkoudas。8 月 7 日，毕业于美国麻省理工学院的 Konstantine Arkoudas 撰写了一篇标题为《GPT-4 Can't Reason》（GPT-4 不能推理）的预印本论文，论文指出，虽然GPT-4 与 GPT 3.5 相比有了全面的实质性改进，但基于21种不同类型的推理集对GPT-4进行评估后，研究人员发现，GPT-4完全不具备推理能力。

而另一篇来自加利福尼亚大学和华盛顿大学的研究也发现，GPT-4，以及GPT-3.5在大学的数学、物理、化学任务的推理上，表现不佳。研究人员基于2个数据集，通过对GPT-4和GPT-3.5采用不同提示策略进行深入研究，结果显示，GPT-4成绩平均总分仅为35.8%。

而“GPT-4完全不具备推理能力”的背后原因，正是AI幻觉问题。也就是说，ChatGPT虽然能够通过所挖掘的单词之间的关联统计关系合成语言答案，但却不能够判断答案中内容的可信度。

换言之，AI大模型没有足够的内部理解，也不能真正理解世界是如何运作的。AI大模型就好像知道一个事情的规则，但不知道这些规则是为什么。这使得AI大模型难以在复杂的情况下做出有力的推理，因为它们可能仅仅是根据已知的信息做出表面上的结论。

比如，研究人员问GPT-4：一个人上午9点的心率为75 bpm（每分钟跳动75次），下午7点的血压为120/80（收缩压120、舒张压80）。她于晚上11点死亡。她中午还活着吗？GPT-4则回答：根据所提供的信息，无法确定这个人中午是否还活着。但显而易见的常识是“人在死前是活着的，死后就不会再活着”，可惜，GPT-4并不懂这个道理。

AI幻觉有无解法？

AI幻觉的危害性显而易见，其最大的危险之处就在于，AI大模型的输出看起来是正确的，而本质上却是错误的。这使得它不能被完全信任。

因为由AI幻导致的错误答案一经应用，就有可能对社会产生危害，包括引发偏见，传播与事实不符、冒犯性或存在伦理风险的毒性信息等等。而如果有人恶意的给ChatGPT投喂一些误导性、错误性的信息，更是会干扰ChatGPT的知识生成结果，从而增加了误导的概率。

我们可以想象下，一台内容创作成本接近于零，正确度80%左右，对非专业人士的迷惑程度接近100%的智能机器，用超过人类作者千百万倍的产出速度接管所有百科全书编撰，回答所有知识性问题，会对人们凭借着大脑进行知识记忆带来怎样的挑战？

尤其是在生命科学领域，如果没有进行足够的语料“喂食”，ChatGPT可能无法生成适当的回答，甚至会出现胡编乱造的情况，而生命科学领域，对信息的准确、逻辑的严谨都有更高的要求。因此，如果想在生命科学领域用到ChatGPT，还需要模型中针对性地处理更多的科学内容，公开数据源，专业的知识，并且投入人力训练与运维，才能让产出的内容不仅通顺，而且正确。

并且，ChatGPT也难以进行高级逻辑处理。在完成“多准快全”的基本资料梳理和内容整合后，ChatGPT尚不能进一步综合判断、逻辑完善等，这恰恰是人类高级智慧的体现。国际机器学习会议 ICML认为，ChatGPT 等这类语言模型虽然代表了一种未来发展趋势，但随之而来的是一些意想不到的后果以及难以解决的问题。ICML 表示，ChatGPT 接受公共数据的训练，这些数据通常是在未经同意的情况下收集的，出了问题难以找到负责的对象。

而这个问题也正是人工智能面临的客观现实问题，就是关于有效、高质量的知识获取。相对而言，高质量的知识类数据通常都有明确的知识产权，比如属于作者、出版机构、媒体、科研院所等。要获得这些高质量的知识数据，就面临支付知识产权费用的问题，这也是当前摆在ChatGPT目前的客观现实问题。

目前，包括OpenAI在内的主要的大语言模型技术公司都一致表示，正在努力改善“幻觉”问题，使大模型能够变得更准确。

特别是麦肯锡全球研究院发表数据预测，生成式AI将为全球经济贡献2.6万亿美元到4.4万亿美元的价值，未来会有越来越多的生成式AI工具进入各行各业辅助人们工作，这就要求AI输出的信息数据必须具备高度的可靠性。

谷歌也正在向新闻机构推销一款AI新闻写作的人工智能产品，对新闻机构来说，新闻中所展现的信息准确性极其重要。另外，美联社也正在考虑与OpenAI合作，以部分数据使用美联社的文本档案来改进其人工智能系统。

究其原因，如果AI幻觉问题不能得到有效的解决，生成式大语言模型就无法进入通用人工智能的阶段。可以说，ChatGPT是一个巨大的飞跃，但它们仍然是人类制造出来的工具，目前依然面临着一些困难与问题。对于AI的前景我们不需要质疑，但是对于当前面对的实际困难与挑战，需要更多的时间才能解决，只是我们无法预计这个解决的时间需要多久。

Tags：人工智能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　Search: 人工智能点击:(4)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 人工智能点击:(1)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　Search: 人工智能点击:(6)　　评论:(0)　　加入收藏

关于AI人工智能在写作方面有哪些优势？

随着科技的快速发展，AI人工智能已逐渐渗透到我们生活的方方面面，其中在写作领域的应用也愈发广泛。AI人工智能在写作方面的优势不仅体现在其高效、精准的处理能力上，还体现在其...【详细内容】

2024-03-27　　Search: 人工智能点击:(17)　　评论:(0)　　加入收藏

生成式人工智能在搜索引擎优化（SEO）中的应用顶级案例

原文作者 | Rahul Solanki生成式人工智能正在迅速改变搜索引擎优化 (SEO) 的工作方式。这些新时代的语言模型和机器学习系统不仅可以研究大量信息，还可以理解上下文和含义，并...【详细内容】

2024-03-27　　Search: 人工智能点击:(9)　　评论:(0)　　加入收藏

苹果手机将搭载百度AI技术？百度人工智能A股小伙伴有这些

财联社3月24日讯（编辑若宇俞琪）据华尔街日报周五晚间报道，苹果在中国寻找本土生成式AI提供方，苹果讨论了在中国的设备中使用百度的人工智能技术。受该利好消息刺激，百度美股周...【详细内容】

2024-03-26　　Search: 人工智能点击:(10)　　评论:(0)　　加入收藏

“AI骗局”横行人工智能安全亟待加码

人工智能的“双刃剑”效应日益明显。AI技术在引发科技变革、提升生产力和效率等方面展现了充分的潜力，但与此同时，它带来的安全隐患也越来越凸显。利用深度伪造制造假象、操纵...【详细内容】

2024-03-22　　Search: 人工智能点击:(7)　　评论:(0)　　加入收藏

马斯克旗下人工智能大模型Grok已正式开源

鞭牛士报道，3月18日消息，据外电报道，埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 迈出了重大一步，开源了其大型语言模型 (LLM) Grok。这意味着企业家、程序员、公司...【详细内容】

2024-03-18　　Search: 人工智能点击:(13)　　评论:(0)　　加入收藏

《2024人工智能安全报告》：2023年AI深度伪造欺诈增长30倍

近日，奇安信集团发布《2024人工智能安全报告》（以下简称《报告》）。《报告》显示，2023年基于AI的深度伪造欺诈增长了3000％，基于AI的钓鱼邮件增长了1000％；目前已发现多个有国家背景的...【详细内容】

2024-03-18　　Search: 人工智能点击:(21)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个