GPT-4和ChatGPT大比拼，究竟谁胜？

时间：2023-05-06 14:16:08 来源：钛媒体APP 作者：

图片来源@视觉中国

文 | 零点有数科技

作为人工智能史上里程碑事件之一的ChatGPT，自2022年11月30日发布至今，一直备受热议。在ChatGPT热潮尚未见减弱之势，2023年3月14日，AI target=_blank class=infotextkey>OpenAI公司继续发布新一代AI语言大模型GPT-4，并官宣称GPT-4是“OpenAI最先进的系统”“能够产生更安全、更有用的响应”。

作为同一家公司推出的同属人工智能技术驱动的自然语言处理工具（AI语言大模型），相比此前的ChatGPT，GPT-4到底有何先进之处？支持这些先进之处的底层逻辑是什么？点击阅读原文，领取零点有数专家的超万字详细解读。

鉴于ChatGPT是基于GPT-3.5大模型微调形成的一个应用产品——AI聊天机器人，而GPT-4则是GPT-3.5的下一代大模型，本文将从两个层面来比较：一是从基础模型层面，比较GPT-4与GPT-3.5（作为底层逻辑）；二是从应用能力层面，比较GPT-4与ChatGPT（作为先进之处）。

01 GPT-4与GPT3.5

GPT-4是OpenAI公司自2018年6月发布GPT-1以来，并历经GPT-2、GPT-3、GPT-3.5之后的最新一代AI自然语言大模型(参见下表1)。

从历代沿革来看，原理基本相同。第一，都是采用一种称之为“自回归生成”的关联统计方法；第二，都是首先采用无监督学习预训练出一个基础通用模型，然后再通过监督学习进行微调适配各种任务，最后采用“从人类反馈中强化学习”的强化学习方法，使得模型能像人类一样进行对话交流；第三，都是基于一种称之为“Transformer”的算法框架。即都是“GPT”(生成式预训练转换器，或称生成式预训练大模型)。

然而不同的是，演变的变量主要关乎模型的规模（即参数个数）、预训练的数据量、对输入信息的支持能力（是否是多模态、是否是长信息）、模型功能（是否有多种能力）以及模型性能、应用安全和可靠性等方面。

具体对比如下：

1、模型规模。相较于GPT-3.5的1750亿个参数，GPT-4的参数达到了5000亿个（也有报道为1万亿），GPT-4的规模比GPT-3.5更大。更大的规模通常意味着更好的性能，能够生成更复杂、更准确的语言。

2、训练数据。GPT-3.5使用了来自维基百科、新闻报道、网站文章等互联网上的大量文本数据，大小为45TB左右。而GPT-4则使用了更大量的网页、书籍、论文、程序代码等文本数据，同时还使用了大量的可视数据。尽管无法考究具体数值，但毫无疑问，GPT-4的训练数据比GPT-3.5更丰富。这使得GPT-4具备更广泛的知识，回答也更具针对性。

表1 OpenAI历代GPT模型参数与预训练数据量对比

3、模态与信息。GPT-3.5是基于文本的单模态模型，无论是图像、文本、音频，用户只能输入一种文本类型的信息。而GPT-4是一个多模态模型,可以接受文本和图像的提示语（包括带有文字和照片的文件、图表或屏幕截图）。这使得GPT-4可以结合两类信息生成更准确的描述。在输入信息长度方面，与GPT-3.5限制3000个字相比，GPT-4将文字输入限制提升至2.5万字。文字输入长度限制的增加，也大大扩展了GPT-4的实用性。例如可以把近50页的书籍输入GPT-4从而生成一个总结概要，直接把1万字的程序文档输入给GPT-4就可直接让它给修改Bug。

4、模型功能。GPT-3.5主要用于文字回答和剧本写作。而GPT-4，除文字回答和剧本写作外，还具有看图作答、数据推理、分析图表、总结概要和角色扮演等更多功能。

5、模型性能。虽然GPT-3.5已经表现出很强大的性能，但GPT-4在处理更复杂的问题方面表现得更好。例如，在多种专业和学术基准方面，GPT-4表现出近似人类水平；在模拟律师考试方面，GPT-4可以进入应试者前10%左右，而GPT-3.5则在应试者倒数10%左右；在USABO Semifinal Exam 2020（美国生物奥林匹克竞赛）、GRE口语等多项测试项目中，GPT-4也取得了接近满分的成绩，几乎接近了人类水平。参见如下图1。

图1 GPT-4各项考试结果（按GPT-3.5性能排序）（数据来源：https://openai.com/research/gpt-4）

6、安全性和可靠性。GPT-4改进了对抗生成有毒或不真实内容的策略，以减少误导性信息和恶意用途的风险，提高其安全性和可靠性。特别地，GPT-4在事实性、可引导性和拒绝超范围解答（非合规）问题方面取得了有史以来最好的结果（尽管它还不够完美）。与GPT-3.5相比，在生成的内容符合事实测试方面，GPT-4的得分比GPT-3.5高40%，对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高29%，对不允许内容的请求响应倾向降低82%。

总体来说，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。参见表2。

表2 从GPT-3.5到GPT-4的新变化

02 GPT-4与ChatGPT

ChatGPT是基于GPT-3.5的AI聊天机器人。但在对话方面，GPT-4已表现出更好的连贯性和语境理解能力：不仅可以生成流畅、准确和有逻辑的文本，还可以理解和回答各种类型的问题，甚至还可以与用户进行创造性和技术性的写作任务。其中，比较突出的应用能力体现如下。

1、新增的图片辨识和分析能力。与ChatGPT相比，GPT-4除了可以支持文字输入以外，还新增了图片辨识和分析功能，即能辨识图片（输出对图片的内容描述）、分析图表（类似Excel中的图表分析）、发现图片中的不常之处（对图片中异常现象进行辨识）、阅读文件并总结概要（如对PDF文件内容进行归纳总结）等。甚至只需要在纸上画一个网站的草稿图，拍一张照片上传给GPT-4，模型便可生成网站代码。

2、更先进的推理能力。相比ChatGPT只能在一定程度上进行简单和直接的推理，GPT-4可以进行复杂和抽象的思考，能解决更复杂的问题。如前所述，GPT-4在多个专业和学术领域都已表现出人类的水平，如美国的律师考试已经达到了前10%的标准，法学院的入学考试也达到了88%的成绩，SAT大学入学考试也达到了90%的成绩。特别是ChatGPT不擅长的数学解题能力，GPT-4有了大幅提升，在美国高校入学考试SAT数学考试中，获得了800分中的700分。

3、更高水平的创造力和协作性。与ChatGPT只能在一定范围内进行有限的创造和协作不同，GPT-4可以与用户进行创造性和技术性的写作任务，例如创作歌曲、编写剧本或者学习用户的风格和偏好，还可以生成、编辑和迭代各种类型和风格的文本，并且能够根据用户的反馈和建议来改进其输出。

4、更广泛的应用前景。GPT-4凭借接近人类水平的语言理解和生成能力以及其他方面的优势，可在各种领域和场合中发挥重要作用。例如，GPT-4可以作为一个智能助理、教育工具、娱乐伙伴和研究助手，为office办公软件、搜索引擎、虚拟导师应用等提供使能。据公开资料报道，微软已将GPT-4接入Office套件从而推出全新的AI功能Copilot，也已将GPT-4接入Bing以提供定制化搜索服务；摩根士丹利正在应用GPT-4进行财富管理部市场信息的分类和检索；Doulingo将使用GPT-4进行角色扮演以增进语言的学习；BeMyEyes正在运用GPT-4将视觉型图片转成文字帮助盲人理解；可汗学院也已使用GPT-4作为虚拟导师Khanmigo……等等。

可以预见，GPT-4将会接入越来越多的行业，从而促进社会生产力和创造力的提升，为人类带来便利和价值。与此同时，伴随着GPT-4的应用拓展和深入，GPT-4将从人类反馈中进行更多、更快的学习，其模型迭代升级的速度也将随之加快，更多的功能、更强的性能将会呈惊现于世。

03 共同的问题

如前所述，GPT-4和ChatGPT同属生成式AI自然语言大模型。所谓生成式，简而言之就是根据输入的单词来预测下一个最有可能出现的关联性单词，然后将这个最有可能出现的单词输入模型，再预测下一个最有可能出现的关联性单词……，类似“单词接龙”，如此接续。通过对大量现存的各种人类语料进行“训练”，让模型的各个参数不断调整，使得模型的“单词接龙”水平不断接近人类语料的真实情况，即让模型学到规律。由此，GPT-4和ChatGPT均会存在由于生成式本身的短板所导致的一系列问题。

例如：如果真实语料中本身存在大量虚假信息，或者存在大量有毒信息（如充满种族、性别、宗教、政治等偏见或恶意），而这些信息恰好被模型学到了，这无疑会导致模型存在产生有害内容的风险；如果出现了实际不同但碰巧符合同一规律的内容，模型有可能无法区分其真实性，最直接的结果是，若现实中不存在的内容刚好符合模型从训练材料中学到的规律，模型就有可能对不存在的内容进行“合乎规律的混合捏造”，即产生虚假信息；由于模型缺乏可解释性，而我们又无法直接查看模型到底记住了什么、学到了什么，只能通过多次提问来评估和猜测它的所记所学，这会导致隐私泄露风险（据BBC 3月23日报道，有用户在社交媒体上看到了其他人使用ChatGPT的历史搜索记录标题）；基于“从人类反馈中强化学习”，难以避免从恶意的诱导中学到了不该学的规律，这会给意识形态侵袭、网络安全带来冲击……。总之，伴随着应用越广泛、越深入，GPT-4和ChatGPT都将面临更多的安全与风险挑战。

正如OpenAI公司的创始人兼首席执行官Sam Altman最近接受ABC新闻采访时表示，他对人工智能技术以及它如何影响劳动力、选举和虚假信息的传播有些“害怕”。他也警告说，人工智能的广泛使用可能会带来负面影响，这需要政府和社会共同参与监管，他呼吁反馈和规则对抑制人工智能的负面影响非常关键。

Tags：GPT-4 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: GPT-4 点击:(7)　　评论:(0)　　加入收藏

微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%

新智元报道编辑：桃子润【新智元导读】全球首个AI程序员Devin诞生之后，让码农纷纷恐慌。没想到，微软同时也整出了一个AI程序员——AutoDev，能够自主生成、执行代码等...【详细内容】

2024-03-18　　Search: GPT-4 点击:(17)　　评论:(0)　　加入收藏

前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

3 月 9 日央视的一档节目上，百度创始人、董事长兼 CEO 李彦宏指出，以后不会存在「程序员」这种职业了，因为只要会说话，人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】

2024-03-11　　Search: GPT-4 点击:(9)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: GPT-4 点击:(76)　　评论:(0)　　加入收藏

微软Copilot Pro来了：个人用户也能在Word里用GPT-4，20美元/月

面向个人用户的微软Copilot会员版来了。一个月多交20刀（约合人民币142元），Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样，不用在C...【详细内容】

2024-01-16　　Search: GPT-4 点击:(90)　　评论:(0)　　加入收藏

“GPT-4变傻”不只是OpenAI的苦恼，所有大模型与人类交往越久就会越蠢？

　许多大模型在处理早期数据时展现出的优异表现，实际上是受到了‘任务污染’的影响，回答问题全靠记，而非纯粹基于学习理解能力。　　ChatGPT发布一年多，已经在全世界...【详细内容】

2024-01-05　　Search: GPT-4 点击:(48)　　评论:(0)　　加入收藏

GPT-4V开源平替！清华浙大领衔，LLaVA等开源视觉模型大爆发

新智元报道编辑：Aeneas【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言...【详细内容】

2024-01-03　　Search: GPT-4 点击:(53)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: GPT-4 点击:(120)　　评论:(0)　　加入收藏

GPT-4V 都搞不明白的未来推理有解法了！来自华科大 & 上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V（如下图所示），也无法很好地解决...【详细内容】

2023-12-18　　Search: GPT-4 点击:(58)　　评论:(0)　　加入收藏

OpenAI 宣布修复GPT-4变懒问题，将在离线评估及AB测试后更新模型

IT之家 12 月 11 日消息，OpenAI 在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4 API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenA...【详细内容】

2023-12-12　　Search: GPT-4 点击:(50)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能
Redis与缓存一致性问	10余所高校公布强基计