自去年ChatGPT发布后,业内外都涌现出了一股对大型语言模型的狂热情绪,甚至有谷歌员工宣称公司内部的语言模型有了意识。
最近,纽约大学教授、Meta首席AI科学家、图灵奖得主Yann LeCun及纽约大学计算机科学系的博士后Jacob Browning发表了一篇长文,他们认为是语言本身的局限性让LLM的智能无法提升。
虽然语言模型变得越来越通用且强大,但我们却越来越不懂模型的思考过程。
模型可以在各个常识推理基准测试中取得非常高的准确率,但为什么还是会说废话、给出危险的建议呢?
也就是说,为什么语言模型如此聪明,能力却又如此有限?
研究人员认为,问题根本不是出在AI算法,而在于语言的局限性,一旦我们放弃「语言即思维」的假设,就会发现尽管LLM的表现出色,但它们永远无法达到接近人类的智慧程度。
在19世纪和20世纪的哲学和科学研究中,主流认知是「知识即语言学」,也就是说,知道某样只是意味着想到了正确的句子,并了解如何与已知的真实网络中的其他句子联系起来。
按照这种逻辑,语言的理想形式应该是一种纯粹形式化的、符合逻辑数学的形式,由任意的符号组成,依照严格的推理规则连接起来,但自然语言可能还需要语义消歧和不精确的。
奥地利哲学家Wittgenstein曾说过,真命题的总和就是自然科学的全部。
虽然在认知地图(cognitive maps)和心像(mental images)领域还存在争议,但20世纪确立的语言学基础就是符号主义。
这一观点到目前也被很多人接受:如果百科全书可以包含所有已知的内容,那只要把所有书都读一遍,那就可以对世界有一个全面了解。
人工智能的早期研究也遵循这个思想,定义符号操作,根据逻辑规则以不同方式将语言符号绑定在一起。
对于当时的研究人员来说,人工智能的知识都储存在一个由人工逻辑连接的真实句子组成的庞大数据库,如果人工智能系统在正确的时间吐出正确的句子,即能够以适当的方式进行符号操作的话,就可以认为是一个智能系统。
这一想法也是图灵测试的基础:如果一台机器可以在合适的时机把自己知道的内容说出去,就意味着它知道自己在说什么,以及何时运用自己的知识。
但反对者认为,一台机器可以聊天,并不意味着它可以理解谈论的具体内容,因为语言并不能穷尽知识,相反,语言只是一种高度具体的、非常有限的知识表征。
所有的语言,无论是编程语言、符号逻辑还是口语,都只是一种特定类型的表征模式,以极高的抽象级别表达离散的对象和属性以及彼此之间的关系。
不过,阅读乐谱和听音乐之间存在巨大的鸿沟,与演奏技巧之间的差异则更大。
语言表征更像是对某些具体信息的压缩,例如描述不规则的形状、物体的运动、复杂机制的功能等,其他非语言的表征也可以用一种可理解的方式来传达信息,如图像、录音、图表等。
语言是一种带宽非常低的传输方式,如果脱离上下文的话,孤立的单词或句子能传达出的信息量非常少,并且由于同音异义词和代词的数量很多,许多句子的语义都非常模糊。
乔姆斯基(Chomsky )在几十年前就提出,语言并不是一种清晰且明确的沟通工具。
但人类并不需要一个完美的沟通工具,我们对一个句子的理解通常取决于句子出现的语境,从而推断出句子的表达含义。
在大多数情况下,我们都在讨论面前的事物,比如正在进行的足球比赛,或是面对某些特定的社会角色,比如跟服务员点餐,交流一些明确的目标。
在阅读一篇短文时,主要考察的是使用通用阅读理解策略来理解文本内容,但研究表明,儿童对某个主题的背景知识量实际上是影响理解的关键因素。
It is clear that these systems are doomed to a shallow understanding that will never Approximate the full-bodied thinking we see in humans.
很明显,AI系统注定只能肤浅地理解世界,永远不会接近人类所具有的全面思维。
单词和句子的固有上下文性质是了解LLM如何运行的关键。
神经网络通常将知识表示为know-how,即对上下文高度敏感,并能同时找到具体和抽象的规则,实现对任务相关的输入进行细微处理。
在LLM中,整个过程涉及到系统在现有文本的多个层次上识别模式,既可以看到单个单词在段落中是如何连接的,也可以看到句子是如何连接在一起以构建更大的篇章段落。
其结果是,LLM对语言的理解肯定是语境化的,在理解单词时不是根据根据字典含义,而是根据其在不同句子集合中所起的作用。
并且,许多单词的运用,比如carbonizer, menu, debugging, electron等,几乎只在特定领域使用,即使在一个孤立的句子中,该单词也会带有上下文语义。
简而言之,LLM的训练过程就是学习每个句子的背景知识,寻找周围的单词和句子来拼凑上下文,使得模型能够将不同句子或短语的无限可能性作为输入,并想出合理的方法来继续对话或续写文章等。
一个接受过所有人类所写的文章进行训练的系统,应该可以具备对话所需的通用理解能力。
有些人并不认为LLM初步具备「理解」能力或所谓「智能」,批评者们认为这些系统只是模仿的比较好而已,因为LLM对语言的理解仍然十分肤浅,就像在教室里故作高深的学生,实际上他们并不知道自己在说什么,只是对教授或课文的无意识模仿。
LLM对一切都有这种肤浅的理解。像GPT-3这样的系统是通过屏蔽句子或段落中的未来单词来训练的,并迫使机器猜测最有可能的单词,然后纠正错误的猜测。该系统最终能够熟练地猜测最有可能的单词,使其成为一个有效的预测系统。
比如GPT-3,只是通过对句子中的某些词进行遮罩,要求模型猜测具体的单词,并进行纠正而已,最终训练成为一个预测系统。
不过这种方式也让我们对语言有了进一步的理解,实际上,对于任何问题或谜题来说,通常只有少数几个正确答案,以及无数个错误答案.
对于特定的语言技能来说,比如解释笑话、单词、逻辑难题等,实际上就是预测问题的正确的答案,进而使机器能够执行缩写、重写、复述等其他需要语言理解的任务。
正如符号AI所预期的那样,知识的表征与上下文相关,在给定前提的情况下输出一个合理的句子。
Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.
放弃所有知识都是语言的观点,可以让我们认识到有多少知识不是用语言来表示的。
但是,从语言上解释一个概念的能力与实际使用的能力是不同的。
比如一个语言系统可以解释如何执行某个算法,但它并不具备执行能力;它也可以解释哪些单词是冒犯性的,但并不能使用。
进一步分析还可以发现,语言模型的注意力和记忆力只有一小段时间,更倾向于关注前两句话,或是下一句话。
当涉及到复杂的对话技巧,如积极倾听、回忆和重温先前的对话、坚持一个主题以提出一个特定的观点,同时避开干扰因素等,语言模型的记忆力缺陷就暴露出来了,聊几分钟就会发现它们前后口径不一致等问题。
如果撤回太多,系统就会重启,接受新观点,或者承认它相信你所说的一切,形成一个连贯世界观所必需的理解远远超出了语言模型的知识范围。
虽然书籍包含了大量可以解压和使用的信息,但其他格式的信息也很重要,比如宜家的使用说明书上只有图纸没有文字,研究人员经常先看论文中的图表,掌握论文结构后再浏览文字;游客可以沿着地图上的红线或绿色线在市区内导航等。
人类在探索世界的过程中学到了很多东西,一个只接受语言训练的系统,即使从现在开始训练到宇宙的尽头,也无法拥有接近人类的智能,
语言之所以重要,是因为它能够以小格式传达大量信息,特别是在印刷机和互联网发明之后,可以很轻松地复制和大规模应用。
但是压缩语言信息并不是免费的:要破译一段晦涩难懂的文字需要很大的努力。
人文学科的课程可能需要大量的课外阅读,这也可以解释为什么一台接受过语言训练的机器可以知道这么多,却又了解得这么少。
它可以接触到人类的所有知识,但书籍中的每一句话又蕴含了大量的信息,理解起来依然很难。
当然,语言模型的缺陷并不意味着机器很愚蠢,只能说明它们的智能程度存在着内在限制。
在很多情况下,我们实际上也并不需要一个接近于人类的智能体,比如我们不会把图灵测试用在另一个人类身上,迫使其他人做多位数乘法等,大多数谈话内容都只是闲聊而已。
语言可能是我们探索世界的一个有用工具,但语言并不是智力的全部,深层的「非语言理解」能力是理解语言的基础,可以加深我们对世界的认知,也能让我们理解别人在说什么。
这种非语言的、对情境敏感的、与生物相关、具身感知的知识是AI研究人员更关注的,而非语言学。
大型语言模型没有稳定的身体或持久的注意力来感知世界,仅从语言中能了解到的世界非常有限,所以学到的常识总是肤浅的。