PanGu-Coder：函数级的代码生成模型

时间：2022-08-01 15:17:53 来源：作者：华为云社区

1. 概述

基于预训练模型的生成技术在自然语言处理领域获得了极大的成功。近年来，包括AI target=_blank class=infotextkey>OpenAI GPT-3、华为PanGu-Alpha等在内的文本生成模型展示出了惊人的创造力，生成能力远超以往的技术，逐渐成为序列生成的一种基本范式，并显示出了巨大的商业潜力。在这种范式的引导下，研究人员开始尝试将语言生成模型引入到软件工程领域，并在代码生成与补全等任务中取得了突破性进展。其中，最广为人知的当属微软发布的AI辅助编程工具Copilot。

近日，华为诺亚方舟实验室语音语义实验室联合华为云PaaS技术创新实验室基于PanGu-Alpha研制出了当前业界最新的模型PanGu-Coder [1]。与业界标杆Copilot 背后的Codex[2]以及谷歌的AlphaCode等[3][4]相比，PanGu-Coder在代码生成的一次通过率（PASS@1）指标上不仅大幅超越同等规模的模型，甚至超越了参数量规模更大的模型。在支持的语言上，除英文外，PanGu-Coder在中文上同样有出色的表现，在未来也可以更好地服务使用中文的开发者。在内测中还发现：PanGu-Coder不但熟悉常见算法，还能熟练地使用各种API，甚至可以求解高等数学问题。相信经过不断打磨，PanGu-Coder将逐步成为编程人员的聪明助手。

2. 训练数据

PanGu-Coder使用了380GB的原始Python/ target=_blank class=infotextkey>Python文件，通过MD5校验，限制文件大小、代码长度以及AST解析等方式对原始文件进行了清洗、去重等工作，最终得到了147GB的数据用作模型训练阶段的输入。

为了提升函数级代码生成的效果，每个Python文件中的代码语料均按照函数级的方式进行了重新组织。例如：如果某个函数的定义之后紧接着对于函数的自然语言注释，该注释将被放置到函数定义之前，形成自然语言到代码的配对数据，并用以构建训练数据集。

3. 训练方法

PanGu-Coder将训练分为了两个阶段：第一阶段使用了全量的代码数据进行训练；第二阶段选择了更符合目标任务的自然语言和代码对作为训练数据对模型进行调优。

3.1 模型架构

图1 PanGu-Coder的模型结构

由于PanGu-Alpha所采用的的自回归Transformer架构所具备强大的文本生成能力，在PanGu-Coder的训练中也沿用了此模型架构用于代码生成任务，其架构如图1所示。同时，PanGu-Coder也沿用了PanGu-Alpha的中英文多语词表，从而同时具备支持中英文输入的能力。

3.2 训练方法

受课程学习（Currilum Learning）启发，PanGu-Coder采用了两阶段训练的方式进行训练：1）在原始语料上，采用传统的自回归语言建模（Causal language modeling，CLM）进行训练；2）在经过筛选的语料上，仅对<自然语言,代码>平行句对样本，采用创新的代码自回归语言建模（Code-CLM）进行训练。

图2 PanGu-Coder的两阶段样本构成方式

PanGu-Coder的两阶段样本示例如图2所示。图2（左）为第一阶段训练样本，图2（右）为第二阶段样本。在第一阶段的训练中，PanGu-Coder具备了自然语言和代码交错的语言模型的能力，而第二阶段样本则帮助PanGu-Coder在通过自然语言进行代码生成的任务上得到了更好的适配。

图3 PanGu- Coder: Code-CLM 损失函数

在第二阶段的训练中，PanGu-Coder采用了专门为代码生成而设计的Code-CLM作为其损失函数。如图3所示。在训练过程中，Code-CLM仅保留代码部分的Loss计算结果，同时忽略了自然语言部分的Loss。Code-CLM损失函数的采用，让PanGu-Coder更专注于学习生成代码序列的同时减少了自然语言序列带来的干扰，使得PanGu-Coder的第二阶段训练数据与训练目标都更接近代码生成任务的真实场景。

4. 实验结果

4.1 模型生成的通过率

模型的一次生成通过率（PASS@1）是代码语言生成模型最重要的能力衡量指标。PanGu-Coder采用了OpenAI发布的HumanEval以及谷歌发布的MBPP两个函数级代码生成任务的数据集作为评测目标。表1给出了HumanEval中一个非常简单的例子。PanGu-Coder生成的代码需要通过单元测试（Unit Tests）才被认为生成正确。

表1 HumanEval 示例

在HumanEval数据集上，与业界标杆Codex（OpenAI）以及包括AlphaCode（google Deep Mind）、CodeGen（Saleforce）、 INCoder（Meta）等模型相比，PanGu-Coder在3亿和26亿模型上的一次通过率PASS@1均达到最优。值得一提的是，3亿参数的PanGu-Coder模型（PASS@1=17.07%）超越了Codex (PASS@1=16.22%)接近7亿参数的模型结果，基本持平了谷歌10亿的模型（表2）。在MBPP数据集上， 26亿参数的模型超越了META INCoder 接近70亿参数的模型效果（表3）。另外，在训练的充分程度上，PanGu-Coder是所有模型中所用数据量以及计算量最小（train tokens）的模型。这一结果充分说明了PanGu-Coder数据集构建策略和分阶段训练设计的合理性，并展示了采用这种方式能够在函数级代码生成这一最重要场景上达到业界最优。

表2 PanGu-Coder在HumanEval上的一次通过率以及十次通过率

表3 PanGu-Coder在MBPP上的一次通过率以及十次通过率

为进一步提升模型函数级代码生成的能力，PanGu-Coder收集了包括CodeContest、CodeSearc.NET、AppS在内的业界已公开的大规模函数级数据集对模型进行微调（Fine-tune），得到了PanGu-Coder-FT。实验结果表明，微调模型在MBPP以及HumanEval上的表现到了明显提升（表4）。

表4 PanGu-Coder: 3亿模型Fine-tune结果

实际编码过程中，通常在实现一个函数之前，会预先设计若干测试用例来测试函数实现结果。在HumanEval 164个函数描述中，有130个问题描述中包含了预设的测试用例。为验证基于测试用例的代码生成的有效性，PanGu-Coder在进行多次生成（200次）的情况下使用这些测试用例对生成的代码进行了过滤，并统计了过滤后代码的通过率。从最终结果可以看出，利用测试用例对生成的代码进行过滤可以极大地提升通过率，其中3亿的模型可以达到41.52%。

表5 PanGu-Coder: 3亿模型测试用例过滤结果

4.2 工具内测

PanGu-Coder模型已集成到了华为云的代码开发辅助工具中，可以在IDE中使用自然语言描述生成函数级的Python代码，或者根据上下文进行补全。

如下是内测过程中产生的几个实际的例子。

（1）常见的数据结构算法

Input: 使用冒泡排序的方法对数组进行排序。

OutPut:

（2）SQL查询功能

Input: 使用MySQL, 从表 “AI research” 的所有记录， 选择address为"Hong Kong Science Park" 的记录，并显示结果.

OutPut:

（3）使用机器学习工具创建文本分类器

Input: create a text binary sentiment classifier .

Output:

（4）高等数学题1: 求微分

Input: Using sympy find the derivative of the function using the definition of the derivative.f(x)= (x**2-1)/(2*x-3).

Output:

（5）高等数学题2，求概率分布

Input: One generates a number x from a uniform distribution on the interval [0, θ].One decides to test H0 : θ = 2 against HA : θ = 2 by rejecting H0 if x ≤ 0.1 or x ≥ 1.9.Using simulations, compute the probability of a type I error.

Output:

5. 展望

PanGu-Coder是基于华为的预训练语言模型PanGu-Alpha演进而来的代码生成模型，在模型训练的高效性以及函数级生成与补全性能上均达到业界领先的水平。目前PanGu-Coder已经集成在华为云的代码开发辅助工具中进行内测。同时PanGu-Coder也在不断的迭代与演进，以支持更多的编程语言、提供更好、更快的生成能力。

文章来自 PaaS技术创新Lab，PaaS技术创新Lab隶属于华为云，致力于综合利用软件分析、数据挖掘、机器学习等技术，为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力，不断构筑研发利器，持续交付高价值商业特性！加入我们，一起开创研发新“境界”！

PaaS技术创新Lab主页链接：https://www.huaweicloud.com/lab/paas/home.html

参考文献：

[1] Christopoulou, Fenia, et al. "PanGu-Coder: Program Synthesis with Function-Level Language Modeling." arXiv preprint arXiv:2207.11280 (2022).

[2] Chen, Mark, et al. "Evaluating large language models trained on code." arXiv preprint arXiv:2107.03374 (2021).

[3] Li, Yujia, et al. "Competition-level code generation with AlphaCode." arXiv preprint arXiv:2203.07814 (2022).

[4] Nijkamp, Erik, et al. "A conversational paradigm for program synthesis." arXiv preprint arXiv:2203.13474 (2022).

Tags：PanGu-Coder 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

PanGu-Coder：函数级的代码生成模型

本文分享自华为云社区《PanGu-Coder: 函数级的代码生成模型-云社区-华为云》，作者：DevAI 。1. 概述基于预训练模型的生成技术在自然语言处理领域获得了极大的成功。近年来，包括...【详细内容】

2022-08-01　　Search: PanGu-Coder 点击:(533)　　评论:(0)　　加入收藏

▌简易百科推荐

用于人工智能开发的主流编程语言都有哪些？

在人工智能开发领域，编程语言的选择至关重要。目前，主流的编程语言主要包括Python、Java、C++、JavaScript和Swift等。这些语言各具特色，适用于不同的人工智能开发场景。首先，Py...【详细内容】

2024-01-31　　　　简易百科　　Tags:编程语言　点击:(141)　　评论:(0)　　加入收藏

探究微处理器开发中的汇编语言的优势与挑战

在计算机编程中，汇编语言是一种低级语言，它可以直接控制计算机的硬件资源。与高级语言相比，汇编语言具有更高的运行效率和更好的控制能力，但同时也更加复杂和难以理解和维护。在...【详细内容】

2023-12-19　　松鼠宝贝　　　　Tags:汇编语言　点击:(103)　　评论:(0)　　加入收藏

选择适合微服务的编程语言，让你的工作事半功倍！

讨论编程语言就像是一场政治辩论。每个开发者都会过分捍卫他/她所使用的编程语言。然而，编程语言应该被看作是它们真正是的东西，即一种工作工具。每种编程语言都有特定的目的...【详细内容】

2023-12-14　　爱发白日梦的后端　　微信公众号　　Tags:编程语言　点击:(183)　　评论:(0)　　加入收藏

编程语言大比拼：Python、Java、C、C++、Go 实现 'Hello World' 和九九乘法表"

应该90%的IT专业的朋友写的第一段代码就是打印"holle world",每个大学老师都会通过这个方式吸引你对课程产生兴趣。也许有的朋友学的是JAVA开发，有的学的是c,在几年前应该很...【详细内容】

2023-12-11　　IT仔的笔记本　　微信公众号　　Tags:编程语言　点击:(221)　　评论:(0)　　加入收藏

TypeScript中的null和undefined的区别

在TypeScript中，null和undefined是两个特殊的值，用于表示变量的缺失或未定义。尽管它们在某些情况下可能看起来相似，并且都可以表示"没有值"，但它们在语义和用法上存在一些重要...【详细内容】

2023-12-07　　科学随想录　　微信公众号　　Tags:TypeScript 　点击:(139)　　评论:(0)　　加入收藏

面向AI开发的六种最重要的编程语言

作者丨FATIH KÜÇÜKKARAKURT 译者 | 布加迪审校 | 重楼出品 | 51CTO技术栈（微信号：blog51cto）在AI开发界，你使用的编程语言很重要。每种语言有其独特...【详细内容】

2023-12-07　　　　51CTO　　Tags:编程语言　点击:(123)　　评论:(0)　　加入收藏

NLP问题实战：基于LSTM（RNN）和Transformer模型

译者 | 朱先忠审校 | 重楼简介GPT等语言模型最近变得非常流行，并被应用于各种文本生成任务，例如在ChatGPT或其他会话人工智能系统中。通常，这些语言模型规模巨大，经常使用超过数...【详细内容】

2023-11-29　　　　51CTO　　Tags:NLP 　点击:(279)　　评论:(0)　　加入收藏

一文了解低级和高级编程语言

中文是一种尽量用简短文字表达更多含义的语言，所以很多时候一句话的含义很容易曲解成别的意思。最近，有人提出C语言是一种中级语言的概念，所以特意介绍一下低级语言和高级语言...【详细内容】

2023-11-23　　数字随行　　微信公众号　　Tags:编程语言　点击:(232)　　评论:(0)　　加入收藏

JetBrains 发布 2023 调研报告：77% 开发者使用 ChatGPT

IT之家 11 月 21 日消息，JetBrains 日前公布了《2023 开发人员生态系统现状》调研报告，汇集了来自全球 26,348 位开发者的调研结果。《开发者生态系统现状报告》涵盖广泛的主...【详细内容】

2023-11-21　　　　IT之家　　Tags:JetBrains 　点击:(241)　　评论:(0)　　加入收藏

Go vs Rust：文件上传性能比较

一、设置所有测试都在配备16G内存的 MacBook Pro M1 上执行。软件版本为： Go v1.20.5 Rust v1.70.0测试工具是一个基于 libcurl 并使用标准线程的自定义工具，能够发送多部分请...【详细内容】

2023-11-20　　技术的游戏　　微信公众号　　Tags:Rust 　点击:(177)　　评论:(0)　　加入收藏

推荐资讯

凌晨3点北京鬼市，天亮	老美怂了？美国众议院计
Meta AI 全球市场扩张	重磅！Meta推出开源大模
多地将禁止超标车上路	喝完一瓶啤酒，多久才能
古代富人都喜欢“扬州	夫妻一方可查询配偶财