OpenAI官方教程：如何解决GPT无法处理长文本和最新数据的问题

时间：2023-04-16 14:44:25 来源：作者：数据学习DataLearner

这是AI target=_blank class=infotextkey>OpenAI官方的cookebook最新更新的一篇技术博客，里面说明了为什么我们需要使用embeddings-based的搜索技术来完成问答任务。

本文原文来自DataLearner官方博客：OpenAI官方教程：如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题 | 数据学习者官方网站(Datalearner)

尽管GPT的能力很强，但是OpenAI认为，基于embeddings的搜索依然十分重要。甚至，这种方式比模型做fine-tuning更好。本篇博客将简单介绍一下为什么OpenAI认为目前基于embeddings的搜索是GPT的最强补充能力！

一、GPT的缺点

尽管目前GPT-4或者ChatGPT的能力已经很强大，但是目前它依然有很大的缺陷：

训练数据是基于2021年9月之前的数据，缺少最新的数据
无法访问我们无法公开的文档
基于历史会话中获取信息

因此，OpenAI发布了这样一篇文档，说明如何使用两步搜索回答来增强GPT的能力：

搜索：搜索您的文本库以查找相关的文本部分。
请求：将检索到的文本部分插入到发送给GPT的消息中，并向其提出问题。

二、为什么搜索比fine-tuning更好？

GPT可以通过两种方式学习知识：

通过模型权重（即在训练集上微调模型）
通过模型输入（即将知识插入到输入消息中）

尽管微调可能感觉更自然——毕竟，通过数据训练是GPT学习所有其他知识的方式——但OpenAI通常不建议将其作为教授模型知识的方式。微调更适合于教授专业任务或风格，对于事实回忆来说则不太可靠。

注意，这里说的是事实回忆，也就是说，如果你有自己的数据，只想从数据中获得知识或者获得相关的内容，那么搜索比微调可能更好。举个例子来说，如果你有大批的历史数据，你只想找到数据中你需要的部分，包括某些概念在哪里出现过，为什么使用了它等等。这些都算是事实回忆。

但是，如果你希望模型可以基于某种模式生成某些内容。例如，你希望模型可以基于XX风格生成某些工作日志甚至是宣传内容，那么微调可能效果更好。

类比来说，模型权重就像长期记忆。当您对模型进行微调时，就像为一周后的考试而学习。当考试到来时，模型可能会忘记细节，或者错误地记住它从未读过的事实。

相比之下，消息输入就像短期记忆。当您将知识插入消息时，就像带着开放的笔记参加考试。有了笔记，模型更有可能得出正确的答案。

相对于微调，文本搜索的一个缺点是每个模型一次只能读取有限数量的文本，以OpenAI为例，其一次输入的内容限制如下：

模型名称

文本最长输入

gpt-3.5-turbo

4096个tokens（大约5页）

gpt-4

8192个tokens（大约10页）

gpt-4-32k

32768个tokens（约40页）

延续这个比喻，您可以将模型想象成一位学生，尽管可能有许多参考书可供借鉴，但一次只能查看几页笔记。

因此，为了构建一个能够利用大量文本回答问题的系统，OpenAI建议使用“搜索-提问”方法。

三、文本检索

搜索文本的方法很多，包括：

基于词汇的搜索（Lexical-based）
基于图形的搜索（Graph-based）
基于嵌入的搜索（Embedding-based）

OpenAI推荐的词嵌入方法。嵌入很容易实现，并且在问题中表现尤为出色，因为问题通常在词汇上不会与它们的答案重叠。

可以考虑将仅使用嵌入的搜索视为作为整个系统的起点。更好的搜索系统可能会结合多种搜索方法，以及特性，如受欢迎程度、最近性、用户历史记录、与先前搜索结果的冗余、点击率数据等。

通过将问题首先转换为假设的答案然后再进行嵌入的技术，如HyDE，也可以提高问答检索的性能。同样，GPT还可以通过自动将问题转换为一组关键词或搜索术语来潜在地改善搜索结果。

四、如何建立基于embeddings的搜索系统来解决问题

总的来说，这样的系统包含3个步骤：准备需要检索的知识、检索、提问即可：

准备搜索数据（仅一次）收集：即获取你要用的数据，例如OpenAI的案例是下载几百篇有关2022年奥运会的维基百科文章切块：将文档分成短小的、大多是自包含的部分以进行嵌入嵌入：使用OpenAI API对每个部分数据获得embeddings结果存储：存储embedding是（对于大型数据集，可以使用向量数据库）
搜索（每次查询一次）给定用户问题，从OpenAI API生成查询的embeddings使用embeddings，按照与查询相关性对文本部分进行排序
提问（每次查询一次）将问题和最相关的部分插入到发送给GPT的消息中返回GPT的答案

简单总结一下就是将原始数据用嵌入的方式存储，然后针对问题获取embeddings结果，再利用这个结果检索最相似的内容，把这个提问和最相似的结果发给GPT，获得GPT的回答即可。也就是说，这是另一种解决GPT无法回答最新数据和长文本内容的方法！

成本

这个方法比原始的方法来说多了几个步骤，但是成本并不一定更多，因为GPT的接口比embedding的接口更贵。如果系统中查询次数比较多，那么成本主要在步骤上面的步骤3（提问）。有个简单的计算方法：

对于使用gpt-3.5-turbo来说，每次查询假设1000个tokens，那么每次查询成本0.002美元，约等于1美元查询500次
对于gpt-4接口来说，假设每次查询依然1000个tokens，那么每次查询成本0.03美元，一美元可以查询30次！

但是这只是简单估算，具体的成本可能还要看系统什么样子。

总结

这是一个非常棒的idea。可以解决目前GPT或者其它大模型没有最新数据或者输入限制的问题。在AutoGPT中，作者也有一个思路，就是每次都把最近的问题以及最相关的目标一起发送给GPT，获得答案，以此来获得更长记忆的能力。但是从实现效果来说，OpenAI这种利用Embeddings先获取最相关文本再提问的方式可能是比较优雅的。而且也可以控制输入和输出的tokens。

官方有代码实现案例参考原文末尾链接：OpenAI官方教程：如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题 | 数据学习者官方网站(Datalearner)

Tags：GPT 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　Search: GPT 点击:(2)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: GPT 点击:(7)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: GPT 点击:(9)　　评论:(0)　　加入收藏

无需注册！OpenAI宣布放开ChatGPT使用限制

工智能初创公司OpenAI宣布，即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道：“让ChatGPT等工具广泛可用，让人们能够体验到人工智能的好处，这是我们使命的...【详细内容】

2024-04-02　　Search: GPT 点击:(7)　　评论:(0)　　加入收藏

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 C...【详细内容】

2024-04-02　　Search: GPT 点击:(3)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　Search: GPT 点击:(8)　　评论:(0)　　加入收藏

把GPT变成算命大师需要几步？

有人说，当代年轻人在上班与上进之间，选择了上香；在求人与求己之间，选择了求佛。现在可以再加上一句，在V大师200和唯物主义之间，选择了人工智能算命。今年1月，OpenAI引领了一场创新...【详细内容】

2024-03-29　　Search: GPT 点击:(11)　　评论:(0)　　加入收藏

GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

财联社3月28日讯（编辑赵昊）今年1月，OpenAI推出了定制聊天机器人商店“GPTs”，以期为业务增添新的动力。但两个多月后，GPTs的吸引力仍然有限，很难达到公司CEO山姆·奥尔特曼...【详细内容】

2024-03-29　　Search: GPT 点击:(19)　　评论:(0)　　加入收藏

ChatGPT之父Altman两小时对谈，首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么

Altman做客油管博主Lex Fridman科技博客，被追问了一个又一个辛辣的问题。长达两个小时的对谈，奥特曼从OpenAI宫斗、马斯克诉讼、Sora，一直聊到AGI与外星文明！本文重点梳理了长...【详细内容】

2024-03-20　　Search: GPT 点击:(8)　　评论:(0)　　加入收藏

地表最强AI大会上，我看到自己就能训练一个GPT的日子即将到来

北京时间3月19日凌晨四点，英伟达GTC 2024主题演讲如期开幕：这不仅五年以来的第一场线下举办的GTC，也是 2024 年重要的一场 AI 峰会。2024GTC丨英伟达当穿着黑色皮夹克的黄仁勋...【详细内容】

2024-03-19　　Search: GPT 点击:(9)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

16个Redis常见使用场	一篇文章教会你使用Py
聊聊Rust里面的数据类	C++中的外部模板及其
一篇文章带你了解Pyth	网络安全行业的春天何
Linux获取Redis 性能	Redis与缓存一致性问