您当前的位置：首页 > 新闻资讯 > 科技

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

时间：2023-10-07 14:04:45 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：Aeneas 好困

【新智元导读】斯坦福学者发现，GPT-4对于Nature、ICLR的论文给出的审稿意见，竟然和人类审稿人有超过50%的相似性。看来让大模型来帮我们审论文，并不是天方夜谭啊。

GPT-4，已经成功晋身审稿人！

最近，来自斯坦福大学等机构的研究者把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4，让它生成评审意见、修改建议，然后和人类审稿人给出的意见相比较。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

论文地址：https://arxiv.org/abs/2310.01783

结果，GPT-4不仅完美胜任了这项工作，甚至比人类做得还好！

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

在它给出的意见中，超50%和至少一名人类审稿人一致。

并且超过82.4%的作者表示，GPT-4给出的意见相当有帮助。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

论文作者James Zou总结道：我们仍然需要高质量的人工反馈，但LLM可以帮助作者在正式的同行评审之前，改进自己的论文初稿。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

GPT-4给你的意见，可能比人类都好

所以，怎样让LLM给你审稿呢？

非常简单，只要从论文PDF中提取出文本，喂给GPT-4，它就立刻生成反馈了。

具体来说，我们要对一个PDF提取、解析论文的标题、摘要、图形、表格标题、主要文本。

然后告诉GPT-4，你需要遵循业内顶尖的期刊会议的审稿反馈形式，包括四个部分——成果是否重要、是否新颖，论文被接受的理由，论文被拒的理由，改进建议。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

从下图可以看到，GPT-4给出了非常有建设性的意见，反馈包括四部分。

这篇论文有什么缺陷？

GPT-4一针见血地指出：虽然论文提及了模态差距现象，但并没有提出缩小差距的方法，也没有证明这样做的好处。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

研究者对3,096篇Nature系列论文和1,709篇ICLR论文的人类反馈和LLM反馈进行了对比。

两阶段评论匹配管线会分别提取出LLM和人类反馈中的评论点，然后执行语义文本匹配，来匹配LLM和人类反馈之间的共同评论点。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

下图就是一个具体的两阶段评论匹配管线。

对于每条配对评论，相似度评级都会给出理由。

研究者将相似度阈值设为7，弱匹配的评论就会被过滤掉。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

在Nature和ICLR两个数据集中，论文和人类评论的平均token长度分别如下。

这项研究有美国110个AI机构和计算生物学机构的308名研究员参与。

每位研究者都上传了自己撰写的论文，看了LLM的反馈，然后填写了自己对于LLM反馈的评价和感受。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

结果显示，研究者普遍认为，跟人类评审的结果相比，LLM生成的反馈与之有很大的重叠，通常很有帮助。

如果说有什么缺点的话，就是在具体性上稍差一些。

如下图所示，对于提交给Nature的论文，大约三分之一（30.85%)的GPT-4意见与人类审稿人意见重合。

在ICLR论文中，超过三分之一（39.23%)的GPT-4意见与人类审稿人意见重合。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

LLM与人类审稿人，偏重略有不同

以下是对同一篇ICLR论文的LLM评论和人类评论，可以看出，LLM的眼光很毒辣，评论很一针见血。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

比如与先前研究的对比上，人类审稿员表示：

比较是有缺陷的。尤其是GNN方法的标签一致性和中心一致性损失都没有考虑到。更公平的比较应该是使用两种损失都考虑到的GNN方法。

而GPT-4的评价是：

论文缺乏与现有方法的彻底的比较。虽然作者对于一些方法比较了基线，但还需要更全面的比较。

在理论可靠性上，人类审稿人给出了这样的意见——

恕我直言，理论的证明太琐碎了。最终结论是如果相似度合适，预测的动作就是准确的。由于模型正在学习正确的相似度，也就相当于说模型h如果经过良好的训练，输出就是正确的。这是显然的事。

而GPT-4的意见是：

作者应该提供更多理论分析，来比较信息传递和一致性约束之间的联系，这样能让读者更易于理解。

在研究的可复现性上，人类审稿员希望论文能够提供代码，好让其他读者也能复现实验。

GPT-4对此也给出了相同意见：「作者应该提供有关实验设置的更多详细信息，来确保研究的可复现性。」

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

参与调查的用户普遍认为，LLM的反馈可以帮助提高评审的准确性，减少人类评审员的工作量。而且大多数用户打算再次使用LLM反馈系统。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

有趣的是，相比人类审稿人，LLM审稿员有自己独有的特点。

比如，它提及影响因子的频率，是人类审稿人的7.27倍。

人类审稿人会更可能要求补充额外的消融实验ablation experiments，而LLM则会注重于要求在更多的数据集上进行实验。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

网友们纷纷表示：这项工作很了不起！

也有人说，其实我早就这么干了，我一直在用各种LLM帮我总结和改进论文。

有人问，所以GPT评审会不会为了迎合如今的同行评审标准，让自己有偏见呢？

也有人提出，量化GPT和人类评审意见的重合，这个指标有用吗？

要知道，在理想情况下，审稿人不应该有太多重合意见，选择他们的原意是让他们提供不同的观点。

不过至少，这项研究让我们知道，LLM确实可以用作改论文神器了。

三步，让LLM给你审稿

1. 创建一个PDF解析服务器并在后台运行：

conda env create-f conda_environment.yml conda activateScienceBeam Python/ target=_blank class=infotextkey>Python -m sciencebeam_parser.service.server --port=8080 # Make sure this is running in the background

2. 创建并运行LLM反馈服务器：

condacreate -n llm python=3.10condaactivate llmpipinstall -r requirements.txtcatYOUR_OpenAI_API_KEY > key.txt # Replace YOUR_OPENAI_API_KEY with your OpenAI API key starting with "sk-"pythonmain.py

3. 打开网页浏览器并上传你的论文：

打开http://0.0.0.0:7799并上传论文，就可以在大约120秒内得到LLM生成的反馈。

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

作者介绍

Weixin Liang（梁伟欣）

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

Weixin Liang是斯坦福大学计算机科学系的博士生，以及斯坦福人工智能实验室（SAIL）的成员，由James Zou教授的指导。

在此之前，他在斯坦福大学获得电子工程硕士学位，师从James Zou教授和Zhou Yu教授；在浙江大学获得计算机科学学士学位，师从Kai Bu教授和Mingli Song教授。

他曾在亚马逊Alexa AI、苹果和腾讯进行过实习，并曾与Daniel Jurafsky教授、Daniel A. McFarland教授和Serena Yeung教授合作过。

Yuhui Zhang

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

Yuhui Zhang是斯坦福大学计算机科学系的博士生，由Serena Yeung教授的指导。

他的研究方向是构建多模态人工智能系统和开发从多模态信息中获益的创意应用。

在此之前，他在清华大学和斯坦福大学完成了本科和硕士学业，并与James Zou教授、Chris Manning教授、Jure Leskovec教授等出色的研究人员合作过。

Hancheng Cao（曹瀚成）

GPT-4竟成Nature审稿人？斯坦福清华校友近5000篇论文实测，超50%结果和人类评审一致 2023-10-07 13:13 发布于：北京市

Hancheng Cao是斯坦福大学计算机科学系六年级的博士生（辅修管理科学与工程专业），同时也是斯坦福大学NLP小组和人机交互小组的成员，由Dan McFarland教授和Michael Bernstein教授指导。

他于2018年以优异成绩获得清华大学电子工程系学士学位。

2015年起，他在清华大学担任研究助理，导师为李勇教授和Vassilis Kostakos教授（墨尔本大学）。2016年秋，他在马里兰大学杰出大学教授Hanan Samet教授的指导下工作。2017年夏，他作为交换生和研究助理在麻省理工学院媒体实验室人类动力学小组工作，由Alex 'Sandy' Pentland教授 Xiaowen Dong教授指导。

他的研究兴趣涉及计算社会科学、社会计算和数据科学。

参考资料：

https://arxiv.org/abs/2310.01783

Tags：GPT-4 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: GPT-4 点击:(5)　　评论:(0)　　加入收藏

微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%

新智元报道编辑：桃子润【新智元导读】全球首个AI程序员Devin诞生之后，让码农纷纷恐慌。没想到，微软同时也整出了一个AI程序员——AutoDev，能够自主生成、执行代码等...【详细内容】

2024-03-18　　Search: GPT-4 点击:(15)　　评论:(0)　　加入收藏

前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

3 月 9 日央视的一档节目上，百度创始人、董事长兼 CEO 李彦宏指出，以后不会存在「程序员」这种职业了，因为只要会说话，人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】

2024-03-11　　Search: GPT-4 点击:(9)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: GPT-4 点击:(71)　　评论:(0)　　加入收藏

微软Copilot Pro来了：个人用户也能在Word里用GPT-4，20美元/月

面向个人用户的微软Copilot会员版来了。一个月多交20刀（约合人民币142元），Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样，不用在C...【详细内容】

2024-01-16　　Search: GPT-4 点击:(89)　　评论:(0)　　加入收藏

“GPT-4变傻”不只是OpenAI的苦恼，所有大模型与人类交往越久就会越蠢？

　许多大模型在处理早期数据时展现出的优异表现，实际上是受到了‘任务污染’的影响，回答问题全靠记，而非纯粹基于学习理解能力。　　ChatGPT发布一年多，已经在全世界...【详细内容】

2024-01-05　　Search: GPT-4 点击:(48)　　评论:(0)　　加入收藏

GPT-4V开源平替！清华浙大领衔，LLaVA等开源视觉模型大爆发

新智元报道编辑：Aeneas【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言...【详细内容】

2024-01-03　　Search: GPT-4 点击:(53)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: GPT-4 点击:(118)　　评论:(0)　　加入收藏

GPT-4V 都搞不明白的未来推理有解法了！来自华科大 & 上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V（如下图所示），也无法很好地解决...【详细内容】

2023-12-18　　Search: GPT-4 点击:(58)　　评论:(0)　　加入收藏

OpenAI 宣布修复GPT-4变懒问题，将在离线评估及AB测试后更新模型

IT之家 12 月 11 日消息，OpenAI 在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4 API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenA...【详细内容】

2023-12-12　　Search: GPT-4 点击:(50)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(7)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(1)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(3)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(5)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(8)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

0首付、0利息！多家车企	真正0首付、0利息来了
微信共享位置怎么换地	微信搜索seo优化策略：
微信恢复聊天记录全攻	如何实现微信聊天记录
收入越高，生育率越低！真	北京、广州相继上调公