近期,在腾讯科技和梅花创投联合举办的《GPT开放麦》活动上,腾讯新闻创作者、甲骨易语言科技股份有限公司甲骨易AI翻译平台LanguageX事业群总经理负责人李光华,展开一张ChatGPT的“全景图”,从技术、产品和市场等角度解析ChatGPT带来的机会和思考。
划重点:
以下为现场实录整理:
大家好,我是甲骨易研发团队甲骨易AI翻译平台LanguageX负责人,甲骨易是一家从事语言AI相关研发的科技公司,在AI翻译以及内容生成等领域已有8年经验和语言数据方面已有多年经验积累。
在GPT-3之前,谷歌和OpenAI都在开展相关研究,但尚未充分展示其威力外界尚未意识到大模型的威力,去年11月30日之前,因为我们做自然语言处理、神经机器翻译相关工作,在ChatGPT问世后,我们第一时间尝试了GPT-3,并在段时间内对产品方向两个月内完成了公司方向进行了调整。如今,我们专注于模型平台、翻译模型大语言翻译模型及相关应用。
现在我们感觉每天都在学习,到了“疯魔FOMO”的程度,生怕漏掉一些信息,我将从以下几个方面来介绍ChatGPT:背景、技术、产品以及一些建议。
缘起:关于吴军“ChatGPT不算一次技术革命”的看法
前两天,吴军老师在得到直播上回答了一些问题,认为“ChatGPT不算一次技术革命”,引发业内争议。我非常敬重吴军老师,但我们在一些重要的形式判断上的观点可能是相反的。我在此表示敬意,也指出一些观点差异。
吴军老师认为语言模型是一个老古董,只是概率计算。他说的没错,最早的语言模型可以追溯到1972年,由IBM提出。然而,由于计算能力的限制,该模型在处理大量数据时需要进行适当的简化大量的阉割和简化。例如,在计算一个包含四个字的词汇时,为了降低计算量,可能需要去掉前两个字,这种方法被称为N-Gram,当时,为了节省计算资源,研究人员不得不采取一种折衷的策略,即在计算一句话的概率时去掉前面的部分信息。但是,如今随着计算能力的提升,这种限制已经不复存在。以ChatGPT为例,现在可以处理长达4000个词的Token句子,这在当时是难以想象的。因此,尽管当时的研究人员认为这条道路无法走通,但随着技术的发展,语言模型的发展已经取得了显著的进步。
最近我仔细阅读了OpenAI的相关研究成果,其中一位科学家在阐述自己的理解时表示,正如OpenAI首席科学家Ilya Sutskever所说:现代神经网络在预测下一个词汇时已经变得非常精准。实际上,他们正在构建一个事件世界模型。现代神经网络的工作原理类似于对一幅图像进行压缩。就像将一张照片压缩后,虽然可能略显模糊,但仍能保留原始图像的主要信息。同样地,神经网络可以对输入信息进行高效的处理和分解。
目前的神经网络与传统的N-Gram概率计算方法已经有了很大的差距,不能再同日而语。这表明,在自然语言处理领域,神经网络技术的发展已经取得了显著进步。
在微软长达154页GPT-4评测的论文中,其所展示的智能已经涵盖了本科生甚至研究生水平的题目,这在很大程度上说明了模型的能力。吴军老师认为GPT-4擅长写作,但他仅把它看作是一种应用学者鹦鹉学舌。我的观点是:尽管GPT-4处理的文本数据量可能达到3000亿个单词,但它的能力并非仅仅是简单地组合这些单词。正如之前的嘉宾提到的“涌现”现象,当数据量和参数达到一定程度时,性能会急剧提升,这一点难以解释目前甚至还没有找到好的解释。
吴军老师可能过于恰恰可能过于“专业”专业,作为谷歌中日韩搜索的技术负责人,他所熟悉的NLP领域的传统方法已经逐渐消失已经发生很大变化。另外,图灵奖得主袁乐坤杨立昆也认为GPT-4等模型缺乏技术创新。但我认为现代神经网络在自然语言处理领域已经取得了显著进步,并在某种程度上超越了传统方法。
ChatGPT是工程和产品的胜利
看这张图,才过两个月ChatGPT的用户已经破亿,并且我们我使用它的频次很高,我自己每天至少花两三个小时用ChatGPT做辅助工作,国内外的大公司都在研究这些模型,亚马逊也加入了这个领域。
我认为ChatGPT是工程和产品的胜利,他们选择语言作为AGI的切入点,最早人工智能学科出来的时候,有一派研究机器人、物理世界,就像波士顿动力正在做的事情,而为什么这一派觉得语言更重要?
因为语言对人类至关重要。维特根斯坦曾说,语言的边界就是思想的边界。尤瓦斯拉蒂《人类简史》作者尤瓦尔赫拉利认为,讨论虚构事物是人类语言的独特之处,——语言可能是我们区别于比如一个生物和其它生物的关键标准。
人工智能发源的符号主义和连接主义都遇到了挑战,而现代神经网络为我们提供了新的解决方案。
简单解释一下,符号主义其实就是逻辑学派,他们认为所有东西都可以解释,比如用机器翻译写语法规则,学外语的人告诉我们这个单词后面要分第几格,学计算机的人把代码写出来,但最后拼在一起错误百出,所以这些东西做到196760年代年就做不下去了。
一段时间之后,连接主义逐渐崛起,它并不强调可解释性。虽然空气动力学能解释飞机的部分原理,但不能完全解释。因此,神经网络和涌现现象也是难以解释的,然而,目前为止,还没看到这条路的天花板。
从下面这张图中,我们可以看到谷歌收购的DeepMind(红色柱子)与OpenAI之间的巨大差距。DeepMind每年发表的论文数量为数百篇,而OpenAI的论文数量仅有个位数。尽管OpenAI投入了大量资金,但他们并未闲着闲置,他们聘请了一个标注团队进行数据标注工作,并将其视为一项工程,而非仅仅是实验和论文发表。
GPT在两三年之前完全被谷歌BERT碾压,但是在过去几年里,OpenAI一直在不断迭代,专注于大型语言模型。他们在2017年的时候还研究过其他技术方向,比如训练过游戏角色,最后把这些都砍掉了,就剩下大语言模型这个方向。
他们的大语言模型可以用“参透万象”来形容。深度学习之父Hinton在GPT-3发布后曾说,:将GPT-3的能力推演到未来,生命、宇宙和万物的答案只是4.398万亿参数而已。GPT-3的参数为1,750亿,大约是前者的几十倍。大型模型通过跨语言的文本知识汇集了人类的智慧,这是而地球上任何一个人都无法阅读如此多书籍和知识的。
此外,预训练模型是世界的压缩镜像,同时也是一个世界模式。黑灰色的圈就是1750亿参数,尽管GPT-3只学习到了其中的一小部分,但它神奇的地方在于泛化能力,它没有见过白色圈子的内容,但是它也可以回答相关的问题。换句话说,它可以回答一些从未见过的问题。当然,泛化会导致精度的损失,例如GPT可能在回答某些历史事件的日期时出错。
最后,用一个词概括大模型——“大道至简”,这其实体现在很多方面,比如在预训练方面,BERT和GPT都采用了预训练方法。然而,这并不意味着一开始就是这样。最早,各公司在做机器翻译、自动问答、情感分析等任务时,会分别建立相应的系统。大型预训练模型直到17、18年之后才开始流行。
大型模型还存在一个问题,那就是微调(Fine-tuning)。微调需要算法工程师来完成,而现在的Instruct GPT可以直接与用户交流,不需要算法工程师或额外的数据。这无疑降低了门槛。从用户界面(UI)的角度看,这可能是最大的改进,从计算机的历史发展来看,早期的计算机只能处理0和1的纸带,后来逐渐出现了键盘、鼠标和触摸板屏。触摸屏的出现虽然有所创新,但其实只是将鼠标替换成了手指。如今,我们所面临的可能是不再使用编程语言,而是用自然语言进行交互,这种变革已经超过了iphone等触摸式设备带来的影响。
当年谷歌以其简洁的界面在搜索引擎市场上取得了成功,这与当时主流的雅虎等门户网站形成了鲜明对比。现在,特斯拉AI的负责人Andrej Karpathy已经回归到OpenAI,他认为未来最热门的编程语言将是英语。
ChatGPT的三个核心技术:情境学习、思维链、人类反馈强化学习
接下来,我们简要介绍了ChatGPT的技术基础,从算法、算力和数据三个方面进行宏观了解。首先,在算法层面,连接主义取得了胜利。然而在过去,连接主义曾经是一种信仰。人工智能之父马文·明斯基是符号学派的代表,当时深度学习的论文难以发表,连接主义者在主流圈子的会议上也没有发表论文的机会。
在算力的发展中,Transformer技术取得了巨大的进步。从商业角度来看,与微软合作是因为训练这类模型非常耗费资金。据估计,训练一个模型的成本在500万至1200万美元之间,而这还不是一次性的费用,因为过程中可能会出现问题。至于推理成本,即模型部署到服务器并响应指令的成本,我们很难按次数计算。不过,根据GPU租金计算,每天的成本大约为35万美元。
在数据方面,英语占据了92%的份额。而中文在GPT-3中的占比仅为0.99%。我们在国内的训练主要还是用中文。尽管如此,中文的影响力在全球范围内可能仍处于较低水平。此外,这些语料库基本上都是公开的,几乎所有的语料都被使用了。
尽管我们把OpenAI的成功主要归功于其工程能力和产品胜利,但仍有三个核心技术值得一提值得关注。
首先是情境学习(In-context Learning),这意味着模型能够根据上下文来学习和适应。
左边是论文标题,右边是Fine-tuning模式,我们之前做模型的方式就是右边的说法,所以模型出来之后我们要拿数据来训练,给他一个例子,如果给出一个法语翻译任务,模型可以根据提供的示例来进行翻译。同样,在情感分类任务中,模型能够学会根据评论内容判断情感倾向。
比如大众点评要给一个我喜欢的电影做评论,第一个评价是正面的,第二个评价是负面的,然后再给他提示我喜欢这个电影,这时候它就知道我让它做情感分类,这是很神奇的,我通过少数例子就让模型发生变化。
模型可以通过少数几个示例迅速适应,这是目前Prompt技术的核心基础。另外两个关键技术分别是思维链和与标注相关的技术。当数据量增大时,思维链的方式可以出现涌现,表现为指标的直线急剧增长。简单的指令可能导致错误的结果,但是当给出解题过程或详细步骤时,模型会给出正确的结果并展示过程。尽管目前对于思维链的研究仍有许多未知,但已经有很多算法在研究这一领域。
第三个技术与标注有关,例如DeepMind先通过人工写答案,再训练一个监督模型,然后让人评估多个答案,最后训练一个模型来自动选择答案。这样一来,可以实现标准化和自动化地选择答案,并对齐人类的价值观。这是一个关键技术,没有这一步,像ChatGPT这样的产品可能早已因为言辞不当而下线。
ChatGPT类产品的市场格局:以aA16zZ和Open AI为代表
在产品方面,市场格局有两个版本,一个是美国的aA16zZ,他们将OpenAI的技术应用于Being模型,并在应用领域进行开发。Hugging face则是一些模型托管平台以及图像声图的支持资源。另一个OpenAI的CEO认为在大语言模型和C端应用之间,还有一层模型托管和创业公司的机会层,专门处理这些大模型,将其应用到不同业务场景。
微软的生态相对明朗,已经将技术应用于office365等产品。我已经不用谷歌,谷歌确实很危险。创业公司在内容生产、场景应用、办公类应用以及新的交互方面都有机会。例如,可以生成逼真的装修风格图,辅助阅读论文和专利,以及提供实用工具。尽管目前还没有看到太多新的交互方式,但这可能是一个更大的机会。
总之,模型适应性、思维链技术以及与标注相关的技术为大型预训练模型的发展提供了基础。在产品和市场方面,依然存在很多创业机会,值得关注。
在当今时代,我们的想象力往往被现有的应用程序框架所限制。例如,在京东购物时,我们需要在众多参数、品牌和选项中进行选择。但是,试想如果有一天,我们只需告诉App我们的预算和需求,它就能为我们找到合适的产品,而不是让我们自己逐一筛选。这恰恰表明,贫穷的想象力限制了我们的思考,很多现有的APP和PC应用范式都在成为“枷锁”,阻碍我们的创新。
类似的例子还有烤面包机。当电灯泡问世时,人们把它等同于电,以至于烤面包机出现时,人们仍然离不开电灯泡的思维。今天我们也面临类似的局限。
去年,我们LanguageX在WMT国际机械翻译比赛上夺冠,幸运地击败了京东和华为等强大的对手。此外,我们还尝试了许多模型和方法。在训练发音翻译模型方面,我们取得了很大的进步。然而,我们很快又遇到了新的挑战,需要不断调整和创新。
几点非结构化建议:AIGC只是开始,AI安全值得关注
关于AI的应用,我们需要重新审视我们的认知。现在,很多创业者都在尝试文案撰写、图像生成和视频制作等方面的应用,但如果不是非常了解这些产品业务和场景,可能并不是一个好的商机。此外,AI的普及和民主化将给我们带来巨大的机会。就像计算机从IBM时代到鼠标和图形界面的出现,一旦技术门槛降低,其影响力会变得非常巨大社会影响力将会空前深远。
我们需要关注一手真实有效的信息,而非被标题党所迷惑。建议大家每天抽时间阅读一些论文,关注AI领域的发展看一些重要人物的访谈视频。此外,我们还要学会运用这些技术,而非只是谈论颠覆。
还有一点看法,我们认为,AI的机会点包括产品内容生产、效率工具和新的交互方式。同时,我们需要关注工业革命和电力革命等历史事件,从中寻找未来的发展方向。
关于AI的监管问题,比如千人联名信呼吁暂停研发AI,有的人吐槽马斯克暗渡陈仓,一边呼吁暂停,一遍自己在研发,我不好猜测他是怎么想的,但我认为这个事情很关键。——AI的发展可能会导致泡沫,也可能让我们失去碳基项目对硅基的控制,因此需要谨慎对待。
最后,分享几句关于AI安全的重要的观点。比如机器智能可能成为人类最后一项伟大发明,但我们不能完全依赖于它。尽管AI可以帮助我们发明更多的东西,但我们仍然需要保持自己的创造力和独立思考。有人认为,只要控制AI的电源,就能控制AI。然而,如果真正的AI出现,它有可能掌控电源甚至创造出新的电源。因此,我们需要对AI有更深入的了解和认知,以避免过于简单化地看待问题。
我们作为创业者、投资者,我们关注应用,作为和人类的一员,我们有责任关注和了解AI安全问题的发展。只有这样,我们才能把握未来的机遇,发挥我们的创造力,为人类的发展作出贡献。只有这样,我们才能把一个安全的世界传承给我们的后代。
作者:李光华 David Lee
编辑:周小燕