作者 | 徐杰承
“当使用过它之后,我对Midjourney已经再也提不起一点兴趣了。”这句“虎狼之词”出自一位AI target=_blank class=infotextkey>OpenAI新图像生成平台的内测用户之口。显然,OpenAI已经再一次做好了掀桌子的准备,而这次他们所瞄准的,正是AI图像生成领域。
根据YouTube博主MattVidPro透露,他的一位粉丝在不久前获得了OpenAI新图像生成平台的内测资格,并向他悄悄透露了大量利用新平台生成的作品。MattVidPro也将这些内容制作成了一期视频节目,而他开场词的第一句话是,“今天,让我们一睹AI生成图的未来!”
图源:Youtube
MattVidPro在视频中表示,据这位粉丝透露,OpenAI正在秘密测试一个全新的图像生成平台,该平台很可能是此前OpenAI所发布的文生图工具Dell-E 2的升级版。并且这次测试非常隐蔽——用户需要在一个仅能容纳400人的OpenAI独家测试服务器中访问该平台。
在进行了一段时间的尝试后,这位粉丝发现,新平台不仅能够创建具有头发、灯光、广告副本等细节特征的逼真图像,而且在生成连贯细节和遵循提示词方面具有极强的能力。在许多任务的执行效果上甚至可以吊打如今AI生成图领域名气最盛的Midjourney。
首先是连贯细节方面,了解AI图像生成模型的人可能会知道,当前绝大多数模型都无法准确处理生成图中的文字内容。Midjourney也同样拥有这项缺陷。一个来自互联网的例子是:“生成红色铅笔,上面印有‘welcome’的文字。”Midjourney虽然完成了红色铅笔的生成,但文字呈现方面可以说一塌糊涂。
图源:网络
但显然,OpenAI已经找到了解决这一问题的方法,在MattVidPro所展示的图片中,新平台在处理相似任务时的表现可以说非常炸裂。无论是生成写有博主ID的海报,还是生成《GTA5》的游戏盒子全都不在话下,并且图像中的主体文字内容完全没有出错。
图源:Youtube
除此之外,在面对较为复杂的提示词时,相比于Midjourney,OpenAI新平台所生成的图像内容显然更接近提示词的描述。这里一个典型的例子是根据以下提示生成图像:“在一场自行车比赛中,一名粉色小丑正在与一只熊猫击掌。自行车是由奶酪制成的,地面非常泥泞。他们在一个多雾的森林里骑车,熊猫很生气。”
在Midjourney所给出的四张作品中,一只熊猫没有骑车,而其余三只的座驾都是没有出现奶酪元素的摩托而非自行车,并且四张图片中均没有出现小丑角色,熊猫的表情看起来也与生气毫不沾边。
图源:Youtube
而OpenAI平台在相同任务上的表现则无需多言,所生成作品包含了提示中的几乎全部细节。
图源:Youtube
看完以上案例,有人可能会说OpenAI新平台生成的图像似乎在真实度和画面细节方面并不出彩,甚至有些依靠“Q版”图耍小聪明的嫌疑。但这其实只是由于在提示中未规定画面风格的缘故。在生成写实图像方面,新平台的能力也完全不亚于目前的主流文生图工具。
图源:Youtube
图源:Youtube
在以上的两个案例中,我们不难看出,无论是油画风格图像“公牛”的画面质感和笔触细节,亦或是写实风格图像“水中少女”的光效、少女面部的水渍呈现等,两幅图像的逼真度和细节处理也均达到了业内顶尖水准。
除了图像以外,关于OpenAI正在测试的这个新图像生成平台,网上几乎没有出现其余的任何消息。但根据OpenAI于3月所发表的论文,不少专业人士推测,该平台很可能利用了全新的“一致性模型”而非目前业内主流的“扩散模型”。
图源:OpenAI
在这篇名为《Consistency Models》的论文中,OpenAI提到,一致性模型在训练速度上覆盖了扩散模型,能够“一步生成”,能够比扩散模型更快实现简单任务,且所用计算量要少10-2000倍。此外,一致性模型也允许“多步采样”,以计算换取样本质量。因此即使没有迭代过程,一致性模型也可以产生高质量结果,并能快速适用于实时任务。
图源:OpenAI
与扩散模型相同,一致性模型也支持零样本数据编辑。例如在修补、着色或超分辨率任务中,一致性模型可以从预先训练的扩散模型中提取数据,也可以单独进行训练。根据OpenAI的说法,一致性模型能在所有非对抗性单步生成任务中胜过扩散模型。
图源:OpenAI
并且以上所提到的两种训练方式都将“对抗训练”从中删除了。这是由于对抗训练过程较为复杂,虽然这更易于产生强大的神经网络,但对抗训练的方式也会导致模型预测的准确率下降。部分业内人士认为,这便是OpenAI新平台能够在处理连贯任务和遵循提示方面表现得更好的主要原因。
除此之外,一个没有太多依据的猜测是,在Dall-E 2发布的几个月前,OpenAI发表了几篇关于扩散模型的论文。如果从时间维度推测,新平台则很可能利用了全新的一致性模型。当然,以上这些也只是目前业内的普遍猜测,在OpenAI官方发声之前,估计我们也很难了解到更多关于该平台的技术细节。
而对于OpenAI为何要如此隐蔽的对该平台进行测试,根据博主MattVidPro的说法以及几个相关的图片案例来看,目前该平台似乎仍未完成全部的开发工作,一些细节方面的问题依然有待进一步完善。
首先便是一直以来都困扰着生成模型的“画手”问题,虽然在大部分情况下表现还算不错,但新平台偶尔也会在生成人物手部细节时犯错误。例如在这张“打喷嚏的粉发少女”中,我们可以清晰地看到人物的手指被描绘成了六根。
图源:Youtube
除此之外,根据粉丝的透露,目前该平台还没有设置任何安全限制,能够生成包含血腥暴力、色情等敏感元素的图像,甚至有时一些敏感图像会在没有提示的情况下弹出。视频中,MattVidPro分享了一张相对委婉的生成图像,并表示一些“有点出格的作品”并不方便公开展示。
图源:Youtube
对于向来以追求极致而著称的OpenAI来说,显然目前该平台的部分能力以及安全性还没有达到他们最终所希望的水平。这也就可以解释为什么OpenAI会选择进行相对隐蔽的测试行为且没有进行对外的公开发声了。
对于OpenAI的下一步计划,不少网友也在Youtube上留下了自己的观点。部分人认为,由于GPT4目前已具有了多模态信息处理能力,OpenAI很可能会基于新平台在下一版ChatGPT中集成强大的AI生成图功能。
另一部分人则认为,OpenAI也可能会基于新平台开发全新的AI生成图产品(或是Dall E-3),与Midjourney、Stable Diffusion等产品竞争并瓜分剩余市场,以进一步提升公司的盈利能力。毕竟目前ChatGPT的用户增长速率已达到了一个阶段性的瓶颈。
总之,虽然就目前看来,OpenAI的这个全新AI生成图平台仍需要进行一些微调以及安全功能的引入,但平台所流露出的信息已经在业内引起了一些积极的反响,并收获了比现阶段主流文生图产品更高的评价。有专家预测该平台或将在今年年底正式对用户开放。
图源:Youtube
不难看出,如今的科技巨头们在人工智能方面的追求已不再满足于单纯的语言模型,而是将攫取的枝杈伸展到了更广阔的领域。无论是OpenAI正在测试的全新AI生成图平台,亦或是Meta刚刚开源的文生音乐模型Audiocraft,都表明着人工智能的未来将在更丰富的模态上开花结果。