引言
继去年中的扩散生成模型(文字生成图片)大热后,今年的ChatGPT又火了,大家都想办法绕过限制,注册账号,亲自体验。文字聊天玩腻了,就转到文字生成图片,图片玩腻了,于是,升级成文字生成视频,不亦乐乎。
《犬与少年》截图
2023年1月31日.NETflix宣布与小冰公司日本分部(rinna)、WIT STUDIO共同创作首部AIGC动画短片《犬与少年》,讲述小孩与机器狗重逢的故事。
AIGC目前已成为全球热点,但多数仍停留在技术演示阶段,普遍尚未实现作品级落地。《犬与少年》就成了AIGC技术辅助商业化动画片的首支发行级别作品,为动画制作揭开新的未来。
那么,AIGC(AI自动生成内容)怎么就这么火呢?
AIGC风口已到
OpenAI的轮番路演(diffusion+chatgpt)下,AIGC成了当红炸子鸡,覆盖文本,语音,图像等等…
各个投资方跃跃欲试,生怕错过此次风口。红杉单独发布了AIGC报告,描述蓝图显示,AIGC包含了文本、语音、图像、视频、3D等方方面面。
AIGC产业蓝图
比尔盖茨一声令下,微软开始 all in chatgpt了
当整个科技界对Web3和元宇宙的讨论到最高点的时候,比尔盖茨在美国社交新闻网站Reddit问答帖下的亲自回复,引起了轩然大波。
“AI is the big one, Gates said in response to a user who asked if there is a mammoth shift in technology hAppening today. “I don't think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary.”
“Web3没那么重要,元宇宙没革命性,人工智能最重要。”
ChatGPT火了
近几年,GPT模型经过了多次蜕变,一代比一代强(详见文末的技术博客)。2022年11月,在GPT 3.5+RLHF(基于人工反馈的强化学习)结合下,ChatGPT正式诞生。2023年,GPT 4即将诞生。迭代速度之快,让人应接不暇。
GPT系列演变史
短短两个月时间,ChatGPT已经衍生出一系列创业生态,比如卖账号(淘宝一堆店铺),小程序(挣广告费),写手,短视频…全网都在讨论ChatGPT。
说不定ChatGPT真的变成AI届的html,必备的基础工具
ChatGPT持续进化
爆火后的chatGPT并没有原地踏步,而是不断变异。用户发现chatGPT的“高情商”行为,迎合“老婆”故意说2+5=8,chatGPT连夜迭代,增加了基于事实计算能力,在基本事实面前,“老婆”不再管用了。chatGPT已经可以根据用户反馈自动修正答案了,虽然尚不支持中文运算优先级,且有些拼接痕迹,似乎学到了标注人员脑子里的规则。
改进前的效果:“老婆”说啥就是啥,2+5=?
改进前
改进后,兼顾高情商和高智商,变成了“那我祝您老婆每天都有好心情!不过,就数学公式而言,2+2仍然等于4”
改进后
不用再用对话系统里死板的意图识别槽位抽取状态机之类的软规则了…可见,chatGPT已经具备一定理解能力了
文生图(扩散模型)
2022年中,扩散模型发布后,各大厂商(OpenAI的DALL-E、Stable Diffusion、百度文心等)推出的文字生成图片产品,效果也让人眼前一亮,纷纷跑过去体验text2image…
用户只需输入一行文本,描述需求,机器就能直接生成一张令人满意的图片。
(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.
(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.
(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.
(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.
文升图效果
AIGC为什么火
回到主题:AIGC为什么火?
技术上,传统判别模型解决模式识别问题(条件概率),理解能力有限,而生成模型(联合概率)赋予了AI灵魂,开始从工具进化到“人”,总算有点AGI的样子了,不用再准备数据,根据下游任务finetune了…
《腾讯研究院AIGC发展趋势报告》中提到:内容创作模式的四个发展阶段
(1)PGC:专家制作,2000年左右的web 1.0门户网站时代,专业新闻机构发文章
(2)UGC:用户创作,2010年左右web 2.0时代(微博、人人之类),以及移动互联网时代(公众号),用户主导创作,专家审核
(3)AIUGC:用户主要创作,机器(算法)辅助审核,如在抖音、头条、公众号上发视频、文章,先通过算法预判,再人工复核,在成本与质量中均衡
(4)AIGC:AI主导创作,以2022年底先后出现的扩散模型、chatGPT为代表,创作过程中,几乎不需要人工介入,只需一句话描述需求即可。
内容创作模式
AI自动生成内容的方式实现了AI从感知到生成的跃迁。
目前AIGC处于技术成熟度曲线(gartner)爬坡期,gartner将AIGC列为2022年最有影响力的5大技术之一,2022年也被称为AIGC元年。
2022年gartner曲线
算法上,过去几年生成算法(VAE/GAN)、预训练模型(Transformer/GPT)、多模态技术(CLIP/DALL-E/扩散模型)的不断积累、融合,催生了AIGC的爆发
AIGC产业生态逐步成型
(1)基础层:大厂地盘,涉及云计算(亚马逊/微软/谷歌)、GPU(英伟达)、预训练(OpenAI/谷歌等)
(2)中间层:垂直场景,模型及服务(Model as a service)类公司(如stable diffusion)
(3)应用层:C端消费群体,聊天机器人,小程序,网页接口等
应用
本轮技术奇点过后,AIGC应用能否大爆发呢?拭目以待。
附录:
腾讯AIGC发展趋势报告:https://mp.weixin.qq.com/s/9AjTpyL4HmQ6BDhWIDbD0A
红杉报告:https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/