您当前的位置:首页 > 范文写作 > 论文

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

时间:2023-10-07 13:55:01  来源:量子位  作者:

GPT-4有能力做论文评审吗?

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意见进行比较。

结果发现:

GPT-4提出的超50%观点与至少一名人类评审员一致;

以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

那么,这项研究究竟能给我们带来何种启示?

结论是:

高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline

它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。

然后让GPT-4提供评审意见。

其中,意见和各顶会的标准一样,共包含四个部分:

研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体实验从两方面展开。

首先是定量实验:

读已有论文,生成反馈,然后与真实人类观点系统地比较出重叠部分。

在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。

其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。

结果是:

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。

但这与两位人类审稿人之间的重叠率相当:

人类在Nature论文上的平均重叠率为28.58%;在ICLR上为35.25%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:

对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高,可以从上面的30%多升到近50%。

这说明,GPT-4对水平较差的论文的鉴别能力很高。

作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

2、GPT-4可以给出非通用反馈

所谓非通用反馈,即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此,作者们衡量了一个“成对重叠率”的指标,结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这说明GPT-4是有针对性的。

3、能够在重大、普遍问题上和人类观点一致

一般来说,人类反馈中较先出现的意见以及多个评审员都提及的意见,最可能代表重要、普遍的问题。

在此,团队也发现,LLM更有可能识别出多个评审员一致认可的常见问题或缺陷。

也就是说,GPT-4在大面上是过得去的。

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现,GPT-4评论研究本身含义的频率是人类的7.27倍,评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验,但人类更关注于消融实验,GPT-4更建议在更多数据集上试试。

作者表示,这些发现表明,GPT-4和人类评审员在各方面的的重视程度各不相同,两者合作可能带来潜在优势。

定量实验之外是用户研究

在此共包括308名来自不同机构的AI和计算生物学领域的研究员,他们都在本次研究中上传了各自的论文给GPT-4进行评审。

研究团队收集了他们对GPT-4评审意见的真实反馈。

总体而言,超过一半(57.4%)的参与者认为GPT-4生成的反馈很有帮助,包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外,还有超过一半的人(50.5%)表示,愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示,只需要5分钟GPT-4就给出了结果,这个反馈速度真的非常快,对研究人员改善论文很有帮助。

当然,作者指出:

GPT-4也有它的局限性。

最明显的是它更关注于“整体布局”,缺少特定技术领域(例如模型架构)的深度建议。

所以,如作者最后总结:

人类评审员的高质量反馈还是不可或缺,但大家可以在正式评审前拿它试试水,弥补遗漏实验和构建等方面的细节。

当然,他们也提醒:

正式评审中,审稿人应该还是独立参与,不依赖任何LLM。

一作都是华人

本研究一作共三位,都是华人,都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

他们分别是:

  • 梁伟欣,该校博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。
  • Yuhui Zhang,同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。
  • 曹瀚成,该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文地址:

https://arxiv.org/abs/2310.01783



Tags:论文   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
财联社3月28日讯(编辑 赵昊)今年1月,OpenAI推出了定制聊天机器人商店“GPTs”,以期为业务增添新的动力。但两个多月后,GPTs的吸引力仍然有限,很难达到公司CEO山姆·奥尔特曼...【详细内容】
2024-03-29  Search: 论文  点击:(14)  评论:(0)  加入收藏
苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto) 全面发力AI的苹果,再出新研究! 随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。 苹果团队最新出炉的论文《利用...【详细内容】
2024-03-26  Search: 论文  点击:(7)  评论:(0)  加入收藏
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
 来源 机器之心至此已成艺术的 Sora,是从哪条技术路线发展出来的?  最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经...【详细内容】
2024-02-21  Search: 论文  点击:(52)  评论:(0)  加入收藏
去年国外撤回大量中国学者论文,教育部:开展高校撤稿论文自查
据武汉大学、山东大学、陕西中医药大学、河南财政金融学院等高校网站近日消息,2023年以来,Hindawi等国外出版机构撤回大量中国学者发表的论文,对我国的学术声誉和学术环境造成...【详细内容】
2024-01-05  Search: 论文  点击:(42)  评论:(0)  加入收藏
学术论文是什么?
学术论文是学术研究领域中的重要成果,是学术交流的重要载体。它是对某个学科领域中的问题进行深入研究并得出结论的学术文章。下面将从学术论文的定义、特点、写作要求等方面...【详细内容】
2023-12-20  Search: 论文  点击:(35)  评论:(0)  加入收藏
当数据成为生产资料,论文总结如何用水印技术保护AI训练数据版权
作者:Jiying编辑:H4O1、引言 -- 为什么要在 AI 训练数据中添加水印?深度神经网络(DNN)以其高效率和高效益被广泛应用于许多关键任务应用和设备中。高质量的已发布(如开源或商业)数...【详细内容】
2023-11-16  Search: 论文  点击:(201)  评论:(0)  加入收藏
GPT-4竟成Nature审稿人?斯坦福清华校友近5000篇论文实测,超50%结果和人类评审一致  2023-10-07 13:13 发布于:北京市
新智元报道编辑:Aeneas 好困【新智元导读】斯坦福学者发现,GPT-4对于Nature、ICLR的论文给出的审稿意见,竟然和人类审稿人有超过50%的相似性。看来让大模型来帮我们审论文,并不...【详细内容】
2023-10-07  Search: 论文  点击:(71)  评论:(0)  加入收藏
论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别
GPT-4有能力做论文评审吗?来自斯坦福等大学的研究人员还真测试了一把。他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意...【详细内容】
2023-10-07  Search: 论文  点击:(84)  评论:(0)  加入收藏
sci论文投稿周期最快有多快?
1.最快2个月左右这边遇到接受最快的SCI,是2个月左右,而是是比较顺利,是小修的那种,这种是很少的情况。可能20篇里,也就一篇是这么快的。2.接受快的原因接受快,有两方面原因:一是,这...【详细内容】
2023-10-07  Search: 论文  点击:(88)  评论:(0)  加入收藏
毕业学位论文与期刊论文的区别?
毕业学位论文与发表期刊论文之间存在着显著的差异,这些差异体现在论文的长度、要求、内容、选题、难度、答辩形式以及撰写目的等方面。1、长度差异:发表期刊论文通常在3000字...【详细内容】
2023-10-07  Search: 论文  点击:(150)  评论:(0)  加入收藏
▌简易百科推荐
去年国外撤回大量中国学者论文,教育部:开展高校撤稿论文自查
据武汉大学、山东大学、陕西中医药大学、河南财政金融学院等高校网站近日消息,2023年以来,Hindawi等国外出版机构撤回大量中国学者发表的论文,对我国的学术声誉和学术环境造成...【详细内容】
2024-01-05    澎湃新闻  Tags:论文   点击:(42)  评论:(0)  加入收藏
学术论文是什么?
学术论文是学术研究领域中的重要成果,是学术交流的重要载体。它是对某个学科领域中的问题进行深入研究并得出结论的学术文章。下面将从学术论文的定义、特点、写作要求等方面...【详细内容】
2023-12-20  PaperBye论文查重软件    Tags:学术论文   点击:(35)  评论:(0)  加入收藏
论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别
GPT-4有能力做论文评审吗?来自斯坦福等大学的研究人员还真测试了一把。他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意...【详细内容】
2023-10-07    量子位  Tags:论文   点击:(84)  评论:(0)  加入收藏
sci论文投稿周期最快有多快?
1.最快2个月左右这边遇到接受最快的SCI,是2个月左右,而是是比较顺利,是小修的那种,这种是很少的情况。可能20篇里,也就一篇是这么快的。2.接受快的原因接受快,有两方面原因:一是,这...【详细内容】
2023-10-07  论文淘淘    Tags:sci论文   点击:(88)  评论:(0)  加入收藏
专著第一主编和第三主编的区别?
学术专著的第一主编和第三主编有什么区别,第一主编和第三主编都可以评职称吗,今天来回答作者的这个疑问。一、位置代表贡献作者的顺序,代表着作者对于专著的贡献程度。专著的第...【详细内容】
2023-10-07  论文淘淘    Tags:专著   点击:(84)  评论:(0)  加入收藏
SSCI核心期刊终止on hold状态。
上个月由Vilnius University出版商出版的SSCI期刊:TRANSFORMATIONS IN BUSINESS& ECONOMICS还处于“on hold”,但在本月学点小编查询后发现,这个本已经解除了“on hold”状态。...【详细内容】
2023-10-07  撑伞的小朋友    Tags:SSCI   点击:(92)  评论:(0)  加入收藏
毕业学位论文与期刊论文的区别?
毕业学位论文与发表期刊论文之间存在着显著的差异,这些差异体现在论文的长度、要求、内容、选题、难度、答辩形式以及撰写目的等方面。1、长度差异:发表期刊论文通常在3000字...【详细内容】
2023-10-07  论文写作查重技巧    Tags:学位论文   点击:(150)  评论:(0)  加入收藏
SCI很难发?只因你不懂诀窍
想要一篇好的SCI论文发表,那么你需要在写作的时候注意六个细节:明确的中心、创新、科学、实用、可读、细节。不管忽视了哪个方面的内容,SCI论文发表都会变得难上加难。一、SCI...【详细内容】
2023-10-07  英辑学术科研    Tags:SCI   点击:(78)  评论:(0)  加入收藏
毕业论文查重标准是什么?
研究生毕业论文查重标准是评估一篇论文与已有文献之间的相似性和原创性的指标。随着网络技术的发展,学术不端行为也日益增多,学术界对于论文的查重工作变得越来越重要。本文旨...【详细内容】
2023-10-07  cnkitime论文查重    Tags:毕业论文查重标准是什么?   点击:(77)  评论:(0)  加入收藏
EI期刊与SCI期刊的异同点有哪些?
EI期刊和SCI期刊是不提供的两种索引工具,他们的评价体系以及期刊收录都有所不同,下面学点小编就具体给大家介绍。1、期刊收录范围EI期刊主要收录的期刊为工程技术领域,涵盖了工...【详细内容】
2023-10-06  撑伞的小朋友    Tags:EI期刊   点击:(66)  评论:(0)  加入收藏
站内最新
站内热门
站内头条