您当前的位置：首页 > 电脑百科 > 人工智能

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

时间：2023-07-31 16:29:38 来源：作者：机器之心Pro

+ 加入收藏

编辑：Panda W

LLM 面临哪些挑战又有哪些应用？系统性的综述论文来了。

从毫无存在感到无人不谈，大型语言模型（LLM）的江湖地位在这几年发生了巨变。这个领域的发展令人目不暇接，但也正因如此，人们难以了解还有什么难题有待解决以及哪些领域已有成熟应用。

为了帮助机器学习研究者更快理解 LLM 领域的当前现状并提升他们的生产力，来自伦敦大学学院等多家机构的研究团队不畏繁琐，系统性地总结了 LLM 领域的艰难挑战和成功应用。

LLM 研究大热的现状也在这篇综述论文的参考文献中得到了体现 —— 总共 22 页参考文献，引用了 688 篇论文！

机器之心对这篇综述论文的大致框架进行了整理，以便读者能快速了解 LLM 的挑战和应用，更详细的论述和具体文献请参阅原论文。

论文：

https://arxiv.org/abs/2307.10169

整体而言，这篇综述论文聚焦于两大主题：(1) 挑战：哪些问题仍未解决？(2) 应用：LLM 当前的应用以及这些应用面临哪些挑战？对于主题 (1)，研究者将 LLM 面临的挑战分成了三个大类：设计、行为和科学。对于主题 (2)，研究者探索了聊天机器人、计算生物学、计算生物学、计算机编程、创意工作、知识工作、法律、医学、推理、机器人和社会科学等领域。

图 1：LLM 挑战概况。LLM 的设计与部署前做出的决策有关。LLM 行为方面的挑战发生在部署阶段。科学方面的挑战会阻碍学术进步。

研究者声明，这篇论文梳理的内容带有个人倾向性，并且假定读者已经熟悉 LLM 的工作方式。此外，他们更关注基于文本数据训练的模型。他们的综述论文也专注于技术方面，不会讨论 LLM 在政治、哲学或道德方面的议题。

挑战

难以理解的数据集

对于 LLM 而言，其预训练数据集的规模非常大，任何个人都无法彻底阅读其中的文档或评估这些文档的质量。这方面涉及的问题包括：

有许多非常相近几乎算是重复的数据；
基准数据遭受污染；
某些信息可用于识别个人的身份；
预训练的数据域混在一起；
微调任务混在一起的情况难以处理。

表 1：所选预训练数据集概况

这些年来，预训练数据集变得更加难以理解了：它们的规模和多样性都在迅速增长，并且不是所有数据集都是公开可用的。

依赖 token 化器

token 化器带来了一些挑战，比如计算开销、语言依赖性、对新词的处理、固定词汇量、信息丢失和人类可解释性低。

图 2：依赖 token 化器的典型缺点。(1) token 化器的训练步骤涉及到复杂繁琐的计算，比如多次遍历整个预训练数据集，并且还会导致对预训练数据集的依赖，这在多语言环境中是个尤其麻烦的问题。(2) LLM 的嵌入层 E 和输出层 W 与词汇量有关，比如在 T5 模型中词汇占到了模型参数数量的 66% 左右。

预训练成本高

通过增加计算预算可以提升模型的性能表现，但如果模型或数据集大小固定，则增长比率会降低，呈现收益递减的幂律趋势。

图 3：掩码策略。每一行表示一个特定输出 y_i（行）可以考虑哪些输入 x_i（列）（红色表示单向，蓝色表示双向）。

图 4：根据预训练目标进行自监督式的数据构建，来自 Tay et al.

微调开销

需要大量内存：对整个 LLM 进行微调时需要预训练时一样大的内存，但很多从业者无法办到。

存储和加载微调 LLM 的开销：当通过全模型微调让 LLM 适应当前任务时，必须存储模型的一个副本（这需要数据存储空间），用于任务时还需要进行加载（需要为此分配内存）。

图 5：针对下游具体任务对 LLM 进行微调。(a) 展示了简单普通的微调，这需要更新整个模型，从而为每个任务生成一个新模型。(b) 展示了 PEFT 方法，其为每个任务学习一个模型参数子集，然后配合固定的基础 LLM 使用。针对不同任务执行推理时，可以复用同一个基础模型。

全矩阵乘法：若要对 LLM 实现参数高效的微调，就需要在整个网络中执行完整的前向 / 后向通过。

推理延迟高

LLM 的推理延迟依然很高，原因包括并行性低和内存足迹大。

上下文长度有限

上下文长度有限使得 LLM 难以很好地处理长输入，让 LLM 不能很好地助力小说或教科书写作或总结等应用。

prompt 不稳定

prompt 句法的变化导致的结果变化对人类来说并不直观，有时候输入一点小变化就会导致输出大变样。

图 6：所选的 prompt 设计方法概况，分为单轮和多轮 prompt 设计。

幻觉问题

幻觉问题是指生成的文本虽然流畅又自然，但却不忠实于内容来源（内在问题）和 / 或不确定（外在问题）。

图 7：GPT-4 的幻觉问题示例，访问日期：02/06/2023。

图 8：用户与 LLM 互动时的 a) 内在和 b) 外在幻觉示例。示例 a) 中，LLM 给出的答案与给定上下文相矛盾，而在 b) 中，上下文没有提供足够信息，无法知道生成的答案是否相矛盾。

图 9：检索增强型 GPT-4 示例，这是幻觉问题的一种潜在解决方法，访问日期：02/06/2023。

行为不对齐

LLM 常会生成与人类价值或意图不对齐的输出，这可能导致意想不到的负面后果。

图 10：对齐。这里将对齐方面的现有研究工作分为两类：检测未对齐的行为和实现模型对齐的方法。

过时的知识

LLM 在预训练期间学到的事实信息可能不准确或随着时间的推移而变得过时。但是，使用更新的预训练数据重新训练模型的成本不低，而试图在微调阶段忘记过时事实并学习新知识的难度也不小。

图 11：知识过时问题的解决方法有：S.1) 通过对基础检索索引使用热交换，使其获得最新知识，从而增强检索能力；S.2) 通过应用模型编辑技术。

评估方法不稳定

对基础 prompt 或评估协议进行少量修改就可能导致结果出现巨大变化。

基于静态的、人工编写的 Ground Truth 来执行评估

随着时间的推移，静态基准的实用性越来越低，因为模型的能力在变化，而更新这些基准需要人类来编写 Ground Truth。

难以分辨生成的文本和人类编写的文本

随着 LLM 的发展，人们越来越难以区分文本是来自 LLM 还是人类。

而就算文本已经被发现是 LLM 生成的，还能通过所谓的转述攻击（Paraphrasing Attacks）绕开，即用另一个 LLM 重写生成的文本，使结果保留大致一样的意思，但改变词或句子架构。

无法通过模型或数据扩展解决的任务

某些任务似乎无法通过进一步扩展数据或模型来解决，比如一些组合任务（Compositional tasks）。

缺乏实验设计

表 2 列出了涉及这方面的一些学术论文。许多研究工作都没有做控制变量实验，如果模型的设计空间很大，那么这个问题就显得尤为严重。研究者认为这会阻碍对 LLM 的科学理解和技术进步。

表 2：所选 LLM 概况。N/A 表示细节缺失。对于研究了多种模型大小的论文，这里仅给出了最大的模型。对于 Tokenizer 项为 SP 的论文，研究者表示无法从相应论文中得知使用的是 BPE 还是 Unigram token 化方法。

对照实验：介绍新 LLM 的论文通常缺乏对照实验，这可能是由于训练足够多模型的成本过高。

（设计）维度诅咒：通常而言，LLM 实验的设计空间的维度很高。

难以复现

不可重复的训练流程：一般来说，现在常用的训练策略是并行化的，即会将训练过程分散到许多加速器上，而这个过程是非确定性的，这会使得我们难以复现 LLM 的训练过程。

不可重现的 API：以推理 API 的形式提供服务的模型通常是不可重现的。

应用

下面将聚焦于 LLM 的应用领域，其中重点关注各领域常见的应用架构。

此外还会强调每个应用领域所面临的关键局限。

图 12：LLM 应用概况。不同颜色表示不同的模型适应程度，包括预训练、微调、提示策略、评估。

聊天机器人

通用型聊天机器人（对话智能体）包含多种任务，如信息检索、多轮交互和文本生成（包括代码）。

保持连贯性：多轮交互使聊天机器人很容易「忘记」对话中更早的部分或重复自己说过的话。

推理延迟高：推理延迟高的话，用户体验会大打折扣，尤其是要和聊天机器人进行多轮对话时。

计算生物学

计算生物学关注的是表示相似序列建模和预测挑战的非文本数据。

难以迁移到下游任务：蛋白质语言模型的最终目标是将它们部署到药物设计等现实项目中。评估通常针对较小和 / 或专门的数据集，而不考虑模型如何有助于生体外或生体内的蛋白质设计。

上下文窗口有限：最大的基因组的 DNA 序列远远长于现有基因组 LLM 的上下文窗口，这会让研究者难以使用这些 LLM 建模某些基因组类型。

计算机编程

LLM 最先进和广泛采用的一大应用是用各种编程语言生成和补完计算机程序。

长程依赖：由于上下文长度有限，LLM 通常无法考虑跨代码库的长程依赖关系。

图 13：API 定义框架。这张示意图展示了一个 API 定义框架：为了解决特定任务，可以在 prompt 中提供一个通用的 API 定义，从而让 LLM 可以使用外部代码或工具。这种方法的扩展包括要求 LLM 实现 API 定义中的功能（红色），以及提示 LLM 自己去调试任何不执行的 API 代码（绿色）。

创意工作

在创意工作方面，LLM 主要被用于生成故事和剧本。

上下文窗口有限：由于上下文窗口有限，当前的 LLM 无法完整地生成长作品，这会限制它们在长作品方面的应用，也催生了对模块化 prompt 设计的需求。

图 14：模块化 prompt 设计。通过一系列分立的 prompt 和处理步骤，LLM 可以执行无法放入单个上下文窗口中的任务以及解决无法通过单一 prompt 步骤解决的任务。

知识工作

随着 LLM 在特定领域的知识任务（比如法律或医学）上的能力逐渐得到证明，人们也越来越有兴趣将 LLM 用于更广泛的知识工作。这些潜在应用的范围非常广泛，据 Eloundou et al. 估计，美国 80% 的劳动力所从事的工作中至少有 10% 的任务会受到 LLM 的影响。

数值推理：LLM 通常在涉及数量的任务上表现更差，这可能会限制它们在金融服务或会计等知识工作领域的应用。

法律

LLM 在法律领域的应用与在医学领域的有许多相似之处，包括法律问答和法律信息提取。但也有人提出过其它特定领域的应用，比如案件结果预测、法律研究和法律文本生成。

信息过时问题：由于法律会不断更新，新的判例也会不断出现，因此训练 / 检索数据经常会遇到过时的问题。

医学

医学领域已经提出了许多 LLM 应用，包括医学问答、临床信息提取、索引、分诊、和健康记录管理。

幻觉和偏见：医疗领域的安全性是至关重要的，这意味着出现幻觉的可能性会极大地限制当前的用例。此外，为了降低 LLM 延续现有临床数据集中的偏见的风险，还需要进一步的研究工作。

推理

数学和算法任务往往需要不同于传统 NLP 任务的能力集合，比如理解数学运算、复杂的多步推理和更长期的规划。因此，现在人们也在努力研究如何将 LLM 用于这些任务以及如何提升 LLM 的能力。

性能表现不及人类：在推理基准任务上，现有的 LLM 难以比肩人类。

机器人和具身智能体

LLM 也已经开始被集成到机器人应用中，以为机器人提供高层规划和语境知识能力。

单一模态问题：尽管 LLM 可以帮助机器人或智能体理解指令和增添高层规划能力，但它们却无法直接学习图像、音频或其它感官模态，这就限制了它们的应用。

社会科学和心理学

快速发展的 LLM 也在心理学和行为科学领域找到了潜在的应用场景。研究者分析了已有的文献，找到了 LLM 在心理学和行为科学领域得到使用的三个主要方向：使用 LLM 来模拟人类行为实验、分析 LLM 的人格特质、使用 LLM 作为建模社会关系的人工智能体。如图 15 所示。

图 15：LLM 在社会科学和心理学领域的用例。

社会偏见：由于 LLM 的训练数据中存在不平衡的观点和意见，因此会使其倾向有偏见的人类行为。

生成合成数据

LLM 具备在上下文中学习的能力，因此可以通过 prompt 让其生成合成数据集，用于训练更小型的特定领域的模型。

带幻觉的分布：由于我们现在还无法验证生成的合成数据是否能否代表对应的真实世界数据的分布，因此目前还难以使用 LLM 生成完整的合成数据集。

Tags：LLM 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

一文解析如何基于 LangChain 构建 LLM 应用程序

Hello folks，我是 Luga，今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - LangChain ，本文将继续聚焦在针对 LangChain 的技术进行剖析，使得大家能够了解 LangChain 实现...【详细内容】

2024-03-07　　Search: LLM 点击:(31)　　评论:(0)　　加入收藏

有了LLM，所有程序员都将转变为架构师？

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）生成式人工智能是否会取代人类程序员？可能不会。但使用生成式人工智能的人类可能会，可惜的是，现在还不是时候。目前，我们正在见...【详细内容】

2024-03-07　　Search: LLM 点击:(19)　　评论:(0)　　加入收藏

一文读懂大型语言模型LLM

在当今的技术世界中，人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是，在自然语言处理...【详细内容】

2024-01-02　　Search: LLM 点击:(81)　　评论:(0)　　加入收藏

SQL应用于LLM的程序开发利器——开源LMQL

译者 | 朱先忠审校 | 重楼我相信你听说过SQL，甚至已经掌握了它。SQL（结构化查询语言）是一种广泛用于处理数据库数据的声明性语言。根据StackOverflow的年度调查，SQL仍然是世界上...【详细内容】

2023-12-27　　Search: LLM 点击:(76)　　评论:(0)　　加入收藏

生成式人工智能潜力的释放：软件工程师的MLOps和LLM部署策略

译者 | 李睿审校 | 重楼生成式人工智能最近的爆发标志着机器学习模型的能力发生了翻天覆地的变化。像DALL-E 2、GPT-3和Codex这样的人工智能系统表明，人工智能系统在未来可以...【详细内容】

2023-12-18　　Search: LLM 点击:(116)　　评论:(0)　　加入收藏

构建更好的基于LLM的应用程序的四大秘诀

作者 | Adrien Treuille译者 | 布加迪自从OpenAI发布首个ChatGPT模型以来，人们对生成式AI的兴趣激增。基于大语言模型（LLM）的应用程序现处于企业思考生产力和效率的最前沿，用于...【详细内容】

2023-12-13　　Search: LLM 点击:(134)　　评论:(0)　　加入收藏

解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了

大语言模型 (LLM) 压缩一直备受关注，后训练量化（Post-training Quantization) 是其中一种常用算法，但是现有 PTQ 方法大多数都是 integer 量化，且当比特数低于 8 时，量化后模型的...【详细内容】

2023-11-17　　Search: LLM 点击:(144)　　评论:(0)　　加入收藏

LLM量化包与传统投资策略的对比分析

随着科技的发展和金融市场的变化，投资者们在寻求更有效的投资策略时，开始关注量化投资。LLM量化包作为一种先进的量化投资工具，与传统投资策略相比，具有许多独特的优势。本文将...【详细内容】

2023-11-17　　Search: LLM 点击:(132)　　评论:(0)　　加入收藏

LLMs应用框架：LangChain端到端语言模型

在当今数字化时代，语言处理技术的重要性日益凸显。大语言模型（LLMs）作为其中的重要分支，已经在多个领域取得了显著的进展。然而，如何将这些模型应用到实际场景中，实现端到端的自动...【详细内容】

2023-11-16　　Search: LLM 点击:(167)　　评论:(0)　　加入收藏

什么是 LLM （大型语言模型）以及如何构建LLM？

来源：Mangesh Gothankar在本文中，我们将了解如何从零开始构建 LLM（大型语言模型）。你可能会问，为什么要做这样的事情？是这样的，LLM 在无数应用中都非常有用，从头开始构建一个 LLM，你...【详细内容】

2023-11-09　　Search: LLM 点击:(90)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个