150亿参数、一次通过率超60％，华为代码能力超GPT3.5的大模型来了

时间：2023-07-28 19:49:59 来源：机器之心作者：

这次，华为代码生成大模型盘古 Coder2 采用了一种类似于 RLHF（基于人类反馈的强化学习）的框架，相较前代实现了更高的一次生成通过率。

随着大模型成为 AI 开发新范式，将大语言模型集成至编程领域、完成代码生成与补全任务成为重要趋势之一。业界出现了一些引人瞩目的代码大模型，比如 OpenAI 的 CodeX、谷歌 DeepMind 的 AlphaCode、HuggingFace 的 StarCoder 等等。

在国内，去年 7 月底，华为诺亚方舟实验室语音语义实验室联合华为云 PaaS 技术创新实验室推出了其代码大模型 PanGu-Coder。与 Codex 和 AlphaCode 相比，该模型在代码生成的一次通过率（PASS@1）指标上大幅超越同等参数规模的模型，甚至优于规模更大的模型。除了英文外，PanGu-Coder 在中文上表现出色。

PanGu-Coder 模型大小和配置。

根据对 PanGu-Coder 的相关内测表现，它不仅熟悉常见算法，而且能熟练地使用各种 API，求解高等数学问题也不在话下。

一年过去了，PanGu-Coder2 终于来了，论文已在 arXiv 上提交。此次华为云、中国科学院和北京大学的研究者联合带来了更强大的代码生成大模型。

论文地址：

https://arxiv.org/pdf/2307.14936.pdf

为了增强预训练代码大模型的生成性能，各种各样的方法被提出并应用，比如监督微调、指令调整、增强学习（RL）等。在本文中，针对现有基于 RL 方法所存在的问题并进一步挖掘代码大模型的潜力，研究者提出了一种全新的 RRTF 框架，它的全称为 Rank Responses to align Test&Teacher Feedback，成功地在代码大模型上应用自然语言 LLM 对齐技术。

就其思路而言，RRTF 框架有别于以往的 CodeRL 和 RLTF，而是遵循了 RLHF（基于人类反馈的强化学习）的思路，使用排序响应（代替奖励模型的绝对值）作为反馈，实现了更简单和高效的训练方法。

研究者将 RRTF 应用于开源的 StarCoder 15B 上，并推出了一个在所有已发布代码大模型中实现最佳性能的 PanGu-Coder2。该模型在 OpenAI HumanEval 基准上实现了 62.20% 的 pass@1 指标，相较 PanGu-Coder 3 亿参数版本的 17.07% 有了显著提升。

不仅如此，在 CoderEval 和 LeetCode 基准上的广泛评估结果表明，PanGu-Coder2 超越了以往所有的代码大模型。

方法概览

RRTF 框架

研究者们提出了一个更简单但是功能强大的框架 RRTF，它将几种前沿技术无缝结合，包括指令调优、Evol-Instruct 方法以及强化学习。本次方法的核心理念是：利用测试信号和人类偏好共同作为反馈，对响应进行排序，从而引导模型生成更高质量的代码。

因此，受最近大型自然语言模型与指令微调取得的进展启发，研究者提出了这一新的训练范式，即 RRTF 框架。框架概览如下图所示。

图 1：RRTF 框架概览

RRTF 包括以下三个步骤：采样、排序和训练。

采样阶段：通过 Evol-Instruct 生成的 prompt 对响应性进行采样。
排序阶段：根据单元测试和启发式偏好对不同来源的响应进行排序。
训练阶段：使用 prompt 三元组和被选用 / 被拒绝响应的相应分数来训练代码大模型。

模型架构

基于具有

Multi-Query-AttentionShazeer 的 decoder-only Transformer，研究者训练出一个 15B 参数的 PanGu-Coder2。同时利用 FlashAttention 来减少计算量和内存占用。因此，该模型的最大长度可以扩展到 8192。下表 1 显示了该模型的详细超参数。

训练语料库

由于手动收集高质量语料库耗时耗力，研究者遵循 Evol-Instruct 技术来构建其训练语料库。具体来讲，他们基于 Alpaca 20K 数据集，并迭代进化该数据集中的编程问题，从而获得新的编程问题。prompt 如下图 2 所示。

针对这些问题，研究者从不同模型中采样了答案。总的来说，他们收集了一个包含 100K 个有答案编程问题的原始语料库，并把它称为指令和解答方案对（instruction and solution pairs）。然后利用一些手动定义的规则在原始语料库上进行数据预处理，将其规模缩小至 68K。

更重要的，为了防止数据泄露，研究者花大力气调查了其 68K 数据集与 HumanEval 基准之间的潜在重叠。经过细致的调查，他们确信其实验中无数据泄露，进一步验证了 PanGu-Coder2 的有效性。

实现细节

研究者选择 StarCoder 15B 作为基础模型，并以 512 的全局批大小对其进行 6 epoch 训练。图 3 展示了单个训练样本的格式。除了在 prompt 中添加一对三引号外，研究者只使用从响应中提取的代码片段进行训练。

实验及评估

研究团队进行了一系列的实验来评估 PanGu-Coder2 的性能。

性能

该研究将 PanGu-Coder2 与现有的代码大模型在 Python/ target=_blank class=infotextkey>Python 代码生成方面进行了性能比较。下表 2 显示了在 HumanEval 基准上的比较结果。

在所有闭源模型中，PanGu-Coder2 排名第二。与 PaLM-Coder 和 LaMDA 等大模型相比，PanGu-Coder2 虽然规模较小，但性能却更好。值得注意的是，PanGu-Coder2 的表现优于 OpenAI 的 GPT-3.5，但与 GPT-4 仍有差距。

表 3 展示了贪婪解码的比较结果。在所有基准测试中，PanGuCoder2 都取得了最好的成绩。值得注意的是，PanGu-Coder2 不仅在 HumanEval 上超过了 WizardCoder 和 StarCoder，而且在 CoderEval 和 LeetCode 上也超过了这两个模型。

表 2 和表 3 的实验结果可以得出以下结论：

在开源模型中，PanGu-Coder2 在 HumanEval 上以 61.64% pass@1 达到了 SOTA。

尽管 PanGu-Coder2 的规模较小，但其性能却优于 PaLM-Coder 和 LaMDA 等更大规模的模型。

PanGu-Coder2 是实验中唯一同时在 HumanEval、CoderEval 和 LeetCode 上都达到最佳性能的模型。

如下图 4 所示，整体准确率随着数据集大小的增加而增加：

在训练计算量方面，无论数据集大小如何，准确率可能会在训练开始时急剧下降或持平。大约 2 个 epoch 后，训练曲线变得更加稳定，准确率随着损失的减少而持续上升。3 个 epoch 后，准确率达到最佳，而 4 个 epoch 后，准确率变得更加稳定，显示出收敛的迹象。这表明，PanGu-Coder2 模型大约需要 3-4 个 epoch 才能完全捕捉到数据集中的知识，而之后的训练步骤对提高模型能力的帮助可能微乎其微。

用例研究

为了对模型进行实证研究并分析未来的工作方向，该研究比较和分析了三个模型的成功和失败案例：基础模型 StarCoder、指令调整模型 WizardCoder 和 PanGu-Coder2 模型。下图 5 显示了三种模型在贪婪解码（greedy decoding）和核采样（nucleus sampling）方面的异同：

图 5 还表明 PanGu-Coder2 和 WizardCoder 可以互补：虽然 PanGu-Coder2 解决了大部分问题，并且其中一些问题是 WizardCoder 无法解决的，但也有一些问题只能通过 WizardCoder 解决。此外，还有一些问题即使采样 200 次，这三个模型也都无法解决。

该研究选择 StarCoder、WizardCoder 和 PanGu-Coder2 生成的几个具有代表性的示例代码作为案例进行研究，以对 PanGu-Coder2 的优缺点进行评估。

如下图 6 所示，PanGu-Coder2 能够熟练地理解编程问题的逻辑，而 WizardCoder 和 StarCoder 在这方面有所欠缺。这一观察结果表明，PanGu-Coder2 通过该研究提出的排名反馈，有效地在编程问题陈述和代码解决方案之间建立了细致的映射。

如下图 7 所示，在某些情况下，PanGu-Coder2 和 StarCoder 的性能差于 WizardCoder，WizardCoder 可能受益于使用大量丰富注释代码指令进行训练。在某种程度上，这一观察表明，引入注释数据可能会在训练过程中产生积极效果。

此外，下图 8 给出了一个复杂的编程挑战，StarCoder、WizardCoder 和 PanGu-Coder2 都给出了错误的代码解决方案。这一观察结果表明，目前代码大模型在处理复杂编程要求方面仍达不到人类的熟练程度，还有一些改进的空间。

推理优化

GPU 内存消耗和推理速度是模型实际部署和使用的关键因素，因此该研究使用 CTranslate2 和 GPTQ 两种量化技术来进行实验，研究模型推理的优化策略。下表 4 展示了使用不同量化技术优化的模型的 GPU 内存消耗、推理速度和 HumanEval 性能。

参考链接：

https://zhuanlan.zhihu.com/p/548457445

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI是万灵药？Meta要把大模型塞进AR眼镜里

寻找下一块“屏幕”，这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网，智能手机让移动互联网无处不在之后，这前后两次造富神话的出现，也让所有人都在期待下...【详细内容】

2024-04-09　　Search: 大模型点击:(2)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个