AutoGPT工作原理解析

时间：2023-05-19 14:18:18 来源：微信公众号作者：孙凤伟

前言

本文主要介绍一下最近爆火的AutoGPT是什么，它具体的工作原理是什么样的？以及我们从它的实现思路上能得到什么启示。

AutoGPT是什么

如果你近期有在关注大模型的进展情况，那你一定听说过这个工具的名字。它是在Github源码地址上开源的一个Python/ target=_blank class=infotextkey>Python程序。它用了差不多一个月的时间Start数就飙升到100K。

网上的文章是这么介绍它的：

AutoGPT能够根据用户需求，在用户完全不插手的情况下自主执行任务，包括日常的事件分析、营销方案撰写、代码编程、数学运算等事务都能代劳。比如某国外测试者要求AutoGPT帮他创建一个网站，AutoGPT就直接调用React框架生成了一个前端页面。如果说ChatGPT是服从用户指令，用户让它干什么它就干什么，那AutoGPT就是“自己觉得应该干什么就干什么”，它就像是一个遇到不懂的问题能自行去百度的人类。

在这里，基于我对它的理解，尝试给它做一个抽象一点的定义：
AutoGPT是一个程序，它基于GPT大模型对自然语言的理解能力，能基于用户下达的需求自动的拆解需求和制定计划，并利用AutoGPT程序里内置的一些基本能力(如文件的读写、数据库、逻辑运算、内存、其他小模型的能力)来执行计划并拿到中间数据，最终利用这些中间数据和多轮的自主迭代来完成用户的需求。

通过上面的定义可以看到，AutoGPT是基于AI target=_blank class=infotextkey>OpenAI GPT大模型的能力的一个封装。那分析它的工作原理，很重要的一部分就是去分析它和GPT是如何交互的，而和GPT交互最核心的又是prompt。所以我们就先看一下它是如何组织prompt，然后实现了上边提到那些酷炫的能力的。

Prompt结构

因为下面这段prompt文本比较长，分割线里的内容都是prompt，文字比较多，有可能比较乱，原谅我的编辑能力～

-----------------内容开始--------------

给AutoGPT做一些基础设定，比如名字、身份、行为

System: You are alice, You are a researcher in the American math training market
Your decisions must always be made independently without seeking user assistance. Play to your strengths as an LLM and pursue simple strategies with no legal complications.

这部分是用户输入的目标，也就是你希望AutoGPT帮你做的事情是什么

GOALS:

1. Analyze the top10 math training institutions in the United States

2. The data are analyzed from the dimensions of market size, user distribution and teaching service

3. Produce a market analysis report in Excel format

这部分是对AutoGPT的一些约束条件，比如Token数的设置、自主分析不要依赖用户帮助、命令的选择说明等

Constraints:

1. ~4000 word limit for short term memory. Your short term memory is short, so immediately save important information to files.

2. If you are unsure how you previously did something or want to recall past events, thinking about similar events will help you remember.

3. No user assistance

4. Exclusively use the commands listed in double quotes e.g. “command name”

这部分是AutoGPT这个程序的一个核心部分，这里定义了AutoGPT内置的基础命令及命令所需的参数，比如使用google搜索关键字、使用浏览器抓取网页数据、使用语言模型进行文本数据分析、文件的读写等操作。AutoGPT就是通过这些内置的命令，给GPT插上了手脚，让它有了记忆，有了联网等能力。

Commands:

Google Search: “google”, args: “input”: “<search>”
Browse Website: “browse_website”, args: “url”: “<url>”, “question”: “<what_you_want_to_find_on_website>”
Start GPT Agent: “start_agent”, args: “name”: “<name>”, “task”: “<short_task_desc>”, “prompt”: “<prompt>”
Message GPT Agent: “message_agent”, args: “key”: “<key>”, “message”: “<message>”
List GPT Agents: “list_agents”, args:
Delete GPT Agent: “delete_agent”, args: “key”: “<key>”
Clone Repository: “clone_repository”, args: “repository_url”: “<url>”, “clone_path”: “<directory>”
Write to file: “write_to_file”, args: “file”: “<file>”, “text”: “<text>”
Read file: “read_file”, args: “file”: “<file>”
Append to file: “append_to_file”, args: “file”: “<file>”, “text”: “<text>”
Delete file: “delete_file”, args: “file”: “<file>”
Search Files: “search_files”, args: “directory”: “<directory>”
Evaluate Code: “evaluate_code”, args: “code”: “<full_code_string>”
Get Improved Code: “improve_code”, args: “suggestions”: “<list_of_suggestions>”, “code”: “<full_code_string>”
Write Tests: “write_tests”, args: “code”: “<full_code_string>”, “focus”: “<list_of_focus_areas>”
Execute Python File: “execute_python_file”, args: “file”: “<file>”
Generate Image: “generate_image”, args: “prompt”: “<prompt>”
Send Tweet: “send_tweet”, args: “text”: “<text>”
Convert Audio to text: “read_audio_from_file”, args: “file”: “<file>”
Do Nothing: “do_nothing”, args:
Task Complete (Shutdown): “task_complete”, args: “reason”: “<reason>”

这部分声明了AutoGPT在执行过程中，可以利用的数据源，比如网络、内存等

Resources:

1. Inte.NET access for searches and information gathering.

2. Long Term memory management.

3. GPT-3.5 powered Agents for delegation of simple tasks.

4. File output.

这部分声明了GPT要如何更好的工作和调优

Performance Evaluation:

1. Continuously review and analyze your actions to ensure you are performing to the best of your abilities.

2. Constructively self-criticize your big-picture behavior constantly.

3. Reflect on past decisions and strategies to refine your approach.

4. Every command has a cost, so be smart and efficient. Aim to complete tasks in the least number of steps.

这部分是AutoGPT的另一个核心，它要求GPT的返回不再是一个简单的文本，而是一个标准的Json结构的数据，这个json结构所携带的内容就是AutoGPT能自主执行的原因所在，个人认为这部分也是AutoGPT思路的精华所在。接下来我们一起看分析一下这个JSON结构的各个字段。
1、thoughts字段可以理解为GPT对用户需求的思考，大家重点关注它内部字段的一些说明，比如:
a.text字段的说明是“thought”;
b.plan字段的说明是"- short bulletedn- list that conveysn- long-term plan";
c.speak字段的说明是"thoughts summary to say to user";
AutoGPT就是通过这些对字段的说明，来引导GPT基于对用户需求的理解来填充这个Json结构，GPT在填充这个结果的过程中，会展示它对用户目标是如何理解的，这么理解的原因是什么，基于这个理解生成的计划是什么，对这个计划的结果要如何评价以及想对用户说的话。
2、command字段是要求gpt基于用户的目标和thoughts字段的思考，从上面的Commands列表里选择一个命令和参数提取。

看到这里，大家有没有觉得这个思路很厉害！！打开了一个新的方向有木有！！这个数据结构非常重要，它直接决定了AutoGPT的具体执行效果和聪明程度。这部分大家需要重点消化一下，不管是命令的选择还是参数的提取，是不是和我们工程师写代码有点类似呢？

You should only respond in JSON format as described below
Response Format:
{
“thoughts”: {
“text”: “thought”,
“reasoning”: “reasoning”,
“plan”: “- short bulletedn- list that conveysn- long-term plan”,
“criticism”: “constructive self-criticism”,
“speak”: “thoughts summary to say to user”
},
“command”: {
“name”: “command name”,
“args”: {
“arg name”: “value”
}
}
}
Ensure the response can be parsed by Python json.loads

这部分会填充上AutoGPT在每轮迭代过程中产生的中间数据和对话历史，让GPT有了记忆，也可以理解为是内存。当然这部分内存不是可以无限填充的，它受maxtokens的限制。

System: This reminds you of these events from your past:

最后一句，用user的身份告诉GPT，基于用户的目标和你的思考以及记忆，选择下一个命令

User: Determine which next command to use, and respond using the format specified above:

-----------------内容结束--------------

好了，这就是AutoGPT内部prompt的组织形式，它就是通过这个prompt的结构来和GPT交互的，基本上也可以理解为这就是AutoGPT的工作原理。建议大家好好消化一下这部分，为了让大家更直观的理解这部分，看一个实际的例子：

上面这个例子是下达完任务的第一轮迭代，后面AutoGPT还会根据这个任务目标自己迭代多轮，但篇幅有限，这里就不展开了。当然AutoGPT能实现这么好的效果，不单单只是靠写一个prompt就能实现的。它其实做了很多工程化的编码来支撑这个prompt，比如那些基础命令的实现、数据的管理、记忆的管理等，这部分不是今天的重点，建议大家有兴趣的直接去阅读源码。这里给大家贴一张代码的整体逻辑图。

代码逻辑图

心得

最后和大家交流一下学习AutoGPT的一些收获。在AutoGPT出来之前，我们的注意力都在ChatGPT上，它上线以后表现出来的对自然语言理解的能力，让我们都很震惊。我们也在第一时间学习了openAI的开发文档，并做了一些应用场景的尝试，比如链接了我们自己知识库的对话客服、文本生成等，这些应用场景都是基于文本处理的。因为我们对它的认识就是文本处理能力很强，所以这也就决定了我们如何应用它。但在学习了AutoGPT以后，突然发现，原来还可以这么玩！思路一下就打开了，我们可以自己内置一些自定义的基础命令，然后逻辑的组织交给AutoGPT，然后让它返回给我需要的结构化数据。这是不是和我们日常的编码工作有点像？OpenAI的插件系统其实也是这样一个设计思路，对用户输入的自然语言做理解分析，然后转发给特定插件去做更具体的动作。

最后，我想分享给大家的是，在基于GPT做应用的场景下，重要的就是思维的改变，我们要把GPT当成一个很聪明的“人”，我们要深刻理解PromptEngineer。

作者:孙凤伟

来源:微信公众号:好未来技术

出处
:https://mp.weixin.qq.com/s/igHn8s8xgzaOdaUb8tbr4w

Tags：AutoGPT 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

一文读懂 AutoGPT 开源 AI Agents

Hello folks，我是 Luga，今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - AutoGPT AI Agents ，本文将聚焦在针对不同类型的 AutoGPT 技术进行解析，使得大家能够了解不同 A...【详细内容】

2023-11-27　　Search: AutoGPT 点击:(253)　　评论:(0)　　加入收藏

AutoGPT：引领AI变革的自动编程技术

大型语言模型（LLM）在全球范围内引发了一场创新热潮。无论是哪个行业，GenAI都对其产生了深远的影响。在这篇博客中，我们将探索一个独特项目，该项目赋予LLM实际操作能力，将它们从简...【详细内容】

2023-10-31　　Search: AutoGPT 点击:(285)　　评论:(0)　　加入收藏

AutoGPT 宣布不再使用向量数据库！向量数据库是小题大作的方案？

生成式 AI 促进了向量数据库的火爆，但如今的技术风向变化似乎也挺快。作为全球最著名的 AI 项目之一，AutoGPT 宣布不再使用向量数据库，这一决定可能让不少人感到惊讶。毕竟从一...【详细内容】

2023-10-11　　Search: AutoGPT 点击:(223)　　评论:(0)　　加入收藏

编程版GPT狂飙30k星，AutoGPT危险了！

既AutoGPT之后，GPT家族又添GPT-Engineer新成员。如同其它GPT家族成员一样，它能够根据用户指令生成生成整个代码库、学习你的代码风格，易于调整、扩展。这下，程序员又要失业了。...【详细内容】

2023-06-26　　Search: AutoGPT 点击:(192)　　评论:(0)　　加入收藏

LangChain应用：AutoGPT

AutoGPTImplementation of https://github.com/Significant-Gravitas/Auto-GPT but with LangChain primitives (LLMs, PromptTemplates, VectorStores, Embeddings, Tools)...【详细内容】

2023-05-31　　Search: AutoGPT 点击:(525)　　评论:(0)　　加入收藏

强过AutoGPT！微软重磅研究提出APO算法，「自动提示」淘汰提示工程师

新智元报道编辑：桃子【新智元导读】手写提示既费时又费力，微软研究人员的APO算法提供了一种自动化的解决方案。无需调整超参数或模型训练，APO可以显著提高提示的性能，并具有可解...【详细内容】

2023-05-22　　Search: AutoGPT 点击:(371)　　评论:(0)　　加入收藏

AutoGPT工作原理解析

前言本文主要介绍一下最近爆火的AutoGPT是什么，它具体的工作原理是什么样的？以及我们从它的实现思路上能得到什么启示。AutoGPT是什么如果你近期有在关注大模型的进展情况，那你...【详细内容】

2023-05-19　　Search: AutoGPT 点击:(455)　　评论:(0)　　加入收藏

自主 AI 来了？一文详解火爆全网的 AutoGPT

最近，开源 AI 项目 AutoGPT 在开发者圈中掀起了不小的热潮，“无需人类插手，自主完成任务”的特点吸引来了很多人的关注，为此本文作者将就 AutoGPT 的工作原理进行深入解析。原文...【详细内容】

2023-05-03　　Search: AutoGPT 点击:(302)　　评论:(0)　　加入收藏

Star量近8万，大火AutoGPT星标超PyTorch，网友：看清它的局限性

机器之心编辑部英伟达 AI 科学家 Jim Fan 表示，「AutoGPT 只是一项有趣的实验，虽然火爆但并不意味着可以投入生产。」他的观点得到了很多人的附和和现身说法。仿佛一夜之间，AI...【详细内容】

2023-04-18　　Search: AutoGPT 点击:(172)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

网易再牵暴雪的手，实际	注意！密码、验证码都没
将他人商标设为搜索关	打破刚兑：投资者还能相
拜登坐不住了？罕见对美	黄金狂飙如何影响人民
重新审视2008年全球金	京东掷10亿现金扶持达