揭秘大模型背后的知识储存与提取技术

时间：2023-09-28 12:21:49 来源：机器之心Pro 作者：

自然语言模型的背诵 (memorization) 并不等于理解。即使模型能完整记住所有数据，也可能无法通过微调 (f.NETune) 提取这些知识，无法回答简单的问题。

随着模型规模的增大，人们开始探索大模型是如何掌握大量知识的。一种观点认为这归功于 “无损压缩”，即模型通过大量训练，记忆更多内容以提高预测精度。但 “无损压缩” 真的能让大模型理解这些知识吗？朱泽园 (MetaAI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.1：知识的储存与提取》深入探讨了这个问题。

论文地址：https://arxiv.org/pdf/2309.14316.pdf

对于人类，有句话叫 “书读百遍，其意自现”。这句话虽不适用于所有知识，但对于简单知识，只要我们能记住相关书籍，就能轻松回答相关问题。例如，只要我们记住古诗 “静夜思”，就能轻松回答 “诗里把月光比作了什么？”；只要我们记住百度百科关于 “出师表 / 创作背景” 那一段，就能轻松回答 “出师表的创作时间是什么？”。那么，大模型是否也能做到这一点呢？

GPT-4 虽然能理解并复述与问题相关的段落，但为何它无法像人类一样回答简单的问题呢？是因为模型不够大，记忆力不足，还是训练后的微调不够？都不是！文章指出，即使自然语言模型足够大，训练时间足够长，微调也足够充分，但它仍可能无法回答人类认为简单的问题。这其中的深层原因，与知识在预训练数据集 (pretrain data) 中的呈现方式有关。同一知识，需要在预训练数据集中多次出现，且具有足够的 “多样性”，微调后才更容易被提取出来。

为了证实这一点，两位作者创建了一个包含 100k 个人物传记的数据集，每个人物有一个传记条目，包含人名和六个固定属性：出生日期，出生地，大学专业，大学名称，工作地点，工作单位。他们设计了 BIOS 和 BioR 两种数据集，BioS 的每个句子选自 50 种固定模板，BioR 则用 LLaMA-30B 进行改写，更逼真，多样性更大。两种数据集的结果一致，下面以 BioS 为例，展示一个样例条目：

Anya Briar Forger was born on October 2, 1996. She spent her early years in Princeton, NJ. She received mentorship and guidance from faculty members at MIT. She completed her education with a focus on Communications. She had a professional role at Meta Platforms. She was employed in Menlo Park, CA.

一个自然语言模型即使完美地预训练 (pretrain) 了 100k 个人的自传，也无法通过 QA 微调 (finetuning) 准确回答 “Anya 本科念了哪所学校” 这样的问题。如图 2 所示，即使使用 50k 的人作为 QA 微调训练数据，尝试各种微调方法，包括 LoRA，模型在剩下的 50k 人上的正确率也只有 10%。即使使用了 682M 的模型（比人数大 7000 倍），训练了 1350 遍，作者甚至加入了 WikiBook 等标准 NLP 预训练数据，正确率也没有提升。可见 “大力出奇迹” 并没有发生。

因此，大模型并不一定能掌握或提取 “无损压缩” 的知识。那么 GPT-4 是如何掌握知识的呢？为了研究这一问题，两位作者对预训练集进行改动 —— 作者称之为知识增强：

1、多样性 - multiM：为每个人创建 M 个传记条目，使用不同的叙述语言但保留相同的信息（每句话一共有 100 种叙述方法，每条传记的每句话从中选取一种）

2、随机排列 - permute：对传记句子进行随机排列

3、全名 - fullname：将传记里所有代词、姓、名替换全名

作者把原始数据集称为 bioS single，并试验了 15 种知识增强组合。例如，bioS multi5+permute 表示每人有 5 个传记，语序打乱。以下是 bioS multi5+permute 的一个示例：

Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at MIT.

对于人和大模型，记住 bioS single 和 bioS multi5+permute 两个数据集的难度几乎相同（它们信息量相同，并且每句话都是选自 50 个模板）。那么，如果在这个新的知识增强数据集上进行预训练 (pretrain)，然后 QA 微调，会有什么新的表现吗？

图 3 显示，bioS single 预训练模型的 QA 正确率仅为 9.7%，而 bioS multi5+permute 预训练模型的正确率高达 96.6%。这个显著的提升与模型的微调、大小或训练时间无关，而是与知识在预训练 (pretrain) 中的呈现方式有关，即知识如何被大模型 “背诵”。

研究还发现，将传记分为名人 (celebrity) 和少数群体 (minority)，只要名人传记有知识增强，即使少数群体没有，模型对少数群体的知识提取正确率也会大幅提升 —— 当然，最好的效果还是需要对所有数据进行知识增强。

那么为何背诵不同数据后，模型的问题回答能力差异大？为何反复背诵名人传记，可以让少数群体的知识提取能力也增强？原因是由于模型采取了不同的记忆方式。

作者通过两种线性探针 (linear probing) 深入探讨了模型的记忆知识的原理。我们来看其中一种叫 P 探针 (P-probing) 的方法。

在 P 探针中，我们输入传记条目到预训练模型，训练一个线性分类器预测六个目标属性（如大学、专业等）。我们想看模型是否能在早于属性的位置提取这些信息。如果分类器在人名后立即显示对 “工作单位” 有高准确率，说明模型直接学习了 “Anya 的雇主是 Meta”。如果只在传记结尾达到高准确率，可能模型用了有缺陷的记忆方法，例如 “某人生日是 1996 年 10 月 2 日，大学是 MIT，因此雇主是 Meta”。

P 探针的试验设计是这样的。找出每个传记中 6 个属性首次出现的位置，然后在这些位置的前一个位置，训练一个线性分类器来预测每个目标属性。这就产生了 36 个分类任务。

图 5：P 探针试验结果显示，预训练数据集的知识增强使知识被存在更早的位置，部分甚至直接存储在人名上。模型是否能通过微调回答问题，与预训练时是否将信息直接存储在人名上有关（对比图 3 和图 5）。

P 探针试验结果显示，自然语言模型在预训练时可以通过人名记住信息以实现压缩，也可以通过其他信息（如 “在 MIT 就读并且生日是 1996 年 10 月 2 日的人的工作单位是...”）记忆。虽然第二种记忆方式对人来说 “不自然”，但对模型来说两种方法的压缩比无异。如果模型采用第二种方式记住信息，训练结束后将无法通过微调回答问题。而通过知识增强，预训练模型会逐渐倾向于学会使用第一种记忆方式。

有人可能会争论，上述 “知识提取” 失败可能是由于自回归 (autoregressive) 语言模型如 GPT 的单向性。实际上，双向语言模型如 BERT 在知识提取上更差，对 “Meta Platform” 这类多词组知识只能存储，无法提取。有兴趣的读者可以参考论文第 6 章。

总的来说，语言模型是否能回答 “知识提取” 问题，不仅取决于 “无损压缩”，还与 “如何在模型中压缩” 有关。论文强调，预训练过程中对关键但少见的数据进行知识增强是必要的（如使用 ChatGPT 进行多次改写）。如果没有这一步，无论如何努力微调，已预训练完的模型虽然无损压缩了训练数据，但是还是可能再也无法提取那些知识了！

结语

如何理解自然语言模型的工作原理？大多数研究者通过与 GPT-4 等模型对话，推测其能力。然而，《语言模型物理学》系列论文的作者提出了一种更精确的方法，通过精细设计训练数据和可控实验，探究 Transformer 的内部机制，解释其处理 AI 任务的能力。

在《Part 3.1：知识的储存与提取》中，作者精确测试了模型对不同数据的反应，找到了模型学习知识和能力与训练数据的准确关系。

他们还发布了《Part 3.2：知识的操作》，进一步研究了模型如何在特定情况下操作知识。例如，如果大模型记住了《静夜思》，能否通过微调使其推理出《静夜思》的最后一句是 “低头思故乡”？我们很快讲为大家带来后续报道。

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

AI大模型之争远未落幕

吕归亚自2022年年底OpenAI发布聊天机器人ChatGPT3.0后，各大科技公司纷纷跟进推出各自的产品。经历了一年多高速推进且“万众瞩目”的发展后， ChatGPT依旧是行业内的标杆级存在...【详细内容】

2024-03-20　　Search: 大模型点击:(19)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

如何实现微信聊天记录	收入越高，生育率越低！真
北京、广州相继上调公	“龙年龙月龙日龙时”
20元引发的官司：“仅退	网约车抽成“套路”多
A股分拆上市密集改道：	探访“中国黄金第一家