随着时间的推移,AI聊天机器人越来越不好用这件事,似乎已经成为了全球用户的共同体验。其中例如微软的Bing Chat,即使有着GPT-4的支持、并打开了创造力模式,也经常会出现经常回避问题或是无法给出回复的情况。在海外社交媒体Reddit上,就有诸多网友吐槽Bing Chat已经变得没有乐趣可言,回答的内容不再风趣、不再快乐,让人感觉是冷冰冰、没有人性的机器。
更有甚者,在有用户试图要求Bing Chat围绕某个虚构人物进行演绎时,在明知相关讨论是无害的情况下,Bing Chat居然认为这一行为存在风险。事实上,微软方面也承认了Bing Chat性能下降的事实,并在给出的相关回复中表示,正在积极监测用户的反馈,并计划在不久的将来做出改变、以解决相关问题。
其实自今年2月初内测以来,New Bing已经经过了大大小小的几次更新,从一开始的“牛Bing”、到后来被“赛博阉割”成“New病”,再到现在提供精准、平衡、创造力三种模式,微软方面一直在试图做一款让所有人满意的AI大模型。但现在看来,似乎有点适得其反了,而ChatGPT这类大语言模型(下文简称为LLM)之所以能够在2022年秋季开始走红,在AI热退烧之后重新点燃外界对于其未来的热情,靠的就是ChatGPT比以往任何同类产品都更智能,或者说更像人。
无独有偶,ChatGPT如今也开始被用户吐槽逐渐出现了速度变慢、回复冗长重复、聊天主题单一无趣等问题。其实这类聊天机器人产品性能下降并非孤立事件,在不同厂商的LLM中都有发生。
事实上,业界也早已关注到这一现象。例如为了验证ChatGPT的行为如何随时间变化,斯坦福大学和加州大学伯克利分校的研究人员就测试了GPT-4在今年3月和6月的两个版本,测试内容横跨数学问题、回答敏感问题、代码生成和视觉推理四个部分。
最终的测试结果也确实证明了ChatGPT能力的衰减,例如在数学和视觉推理部分,研究人员使用了思维链(chain-of-thought,CoT)技术,让LLM来模拟人类思考的过程,并帮助其生成一个推理路径,将复杂的推理问题分解为多个简单的步骤,而不仅仅只是从语料库中直接拟合出最终答案。
然而结果显示,GPT-4的性能发生了显著的漂移,从3月到6月,GPT-4关于数学问题的准确率一路从97.6%降至2.4%,同时回答长度也减少了超过90%。
而在视觉推理方面,6月的GPT-4在部分此前在3月曾正确回答的查询上,反而又出现了错误。即对于3月能给出正确结果的问题,6月反而就做不到了。
如今相当多程序员每天都在使用的AI编写代码,但研究人员发现,在3月时GPT-4输出的代码中有超过50%是可直接执行的,可这一数字到了6月就仅有10%。而且这还不是最夸张的,在回答敏感问题方面,GPT-4的直接回答率已经从21%降至5%,甚至在拒绝回答不当问题时,6月版本的GPT-4也倾向于不向用户提供解释。
通常来说,事物的发展往往是呈螺旋形上升,具体到信息技术领域更呈现出了跨越式前进的状态,“今不如古”的情况可以说是绝无仅有。那么问题就来了,出现“科研靠考古”这种情况只有一种可能,那就是行业整体曾崩溃过、如今又在重建。但AI大模型可是纯粹的前沿科技,并不存在类似的问题,所以这其中肯定是有蹊跷的。
目前在网络上最主流的声音,是ChatGPT、Bing Chat能力下降是为了平衡用户体验的结果。毕竟ChatGPT生成的内容是需要消耗算力的,用户越多需要的算力就会随之增加,但OpenAI、微软购买算力资源的速度在这半年以来,却无法与用户增长相匹配,所以就导致了响应速度的下降,用户得排队向这类产品提问,而且提问数量被限制的情况也早已发生。所以在这种情况下,降低性能来平衡响应速度就是不难想到的一种解决方案。
当然,更深层次的核心矛盾是AI伦理问题,也就是数月前曾引起诸多讨论的“AI可能给人类带来灭绝风险”,对于AI的担忧甚至让OpenAI创始人奥特曼走上了美国参议院的听证会,更让他这几个月来一直在全球各地“布道”。不受控制的AI会成为毁灭人类文明的罪魁祸首,这无疑是科幻小说的一个重要题材,因此对于AI失控的担忧也是这一技术自诞生以来就存在的。
由此也衍生出了一个控制AI的概念“AI对齐”,即要求AI系统的目标要与人类的价值观和利益对齐,使其符合设计者的利益预期,不会产生意外的有害后果,比如生成各种不当言论等内容。事实上,微软、OpenAI这列企业搞AI对齐是必然,例如微软在2016年发布的聊天机器人Tay就曾出现过发表种族歧视内容的情况,也直接导致它出师未捷身先死。
但强行让AI遵守人类的价值观本身就是反直觉的事情,想要让AI与人类对齐,开发者就需要指定正确的目标函数,需要证实应当提供什么样的反馈才能正确引导AI。此外甚至还需要证明提供这些反馈是合理的,而这无疑堪称是当下难以解决的技术难题。那么问题也就来了,如果想要让一个人不胡思乱想,并矫正其思维模式,最直接的方式是什么?当然是诺贝尔奖中的黑历史前脑叶白质切除术了,直接就把人类的思维能力从物理层面消灭。
回到AI领域也是一样,由微软研究院发布的一篇论文证实对AI大模型所进行的任何AI对齐行为,都会损失其准确性和性能,因为ChatGPT这类产品是基于人类反馈的强化学习来构建智能,人工强行干预的AI对齐会阻碍大模型对任务理解的真实程度。所以自然而然的,AI大模型的性能就出现了开局即巅峰的情况。
但无论是算力紧张、还是AI伦理限制,短时间来看几乎都是无解的,因此用户体验高开低走也是必然,相关企业也不太可能解决得了这一问题。