西风 明敏 发自 凹非寺
量子位 | 公众号 QbitAI
AI工具秒做电商图,一张只要一块钱,成本直降99%!
随便上传一张照片,服饰不变,改头换脸:
足不出户即可配入各种背景,光影也能自然呈现:
小哥哥也有哦,还能自动补全扩展,任意改变图片大小:
哪怕没有真人图,只有人台照,也可展示上身效果:
甚至可以跨次元,把2次元纸片人的服装变成3D真实风格。
这效果,乍一看很难辨别出是AI生成的啊。
如此一来,商家岂不是无需进行大量线下拍摄,省去换景别甚至外出拍图的步骤,在电脑前即可做出丰富商品图?
啥情况,电商模特这碗饭也要端不住了?
1分钟做一张AI模特图
如上提到的AI工具,名叫小K电商图。
现在能提供4种电商图生成功能:
各种效果只需3步即可搞定,界面非常通俗易懂,操作流程大约在1分钟左右。
比如选一张迪丽热巴的照片,想更换人脸和表情,并且把背景替换成T台,同时调整图片尺寸。
需要先上传图像,系统会自动对图像进行分割,选中想要保留的区域。
(如果服装被头发遮住可以同时保留头发))
然后再设定想改变的元素,包括模特人脸风格、面部表情、背景等。
同时可以勾选一些特殊处理,补充服装。
在这里,我们设定将原图人像换成一位欧美模特、露齿笑、背景为T台,并扩大了原图尺寸。
可以看到生成结果中,很好保留了服装和发型,但是其他元素都进行了相应调整。
而且对于发丝、光影都重新做了处理。背景也是AI重新完全生成的,区别于传统PS抠图。
一次生成会给出4张图,方便挑选。
生成图片背景的细节也可以处理得很好,比如雪景背景下,人物鞋子上都会被加上雪花。
在小K电商图里,提供的AI模特类型比较多,不同地区、不同年龄都有覆盖。
如果对现有模特不满意,还可自由定制专属模特,定制化模式有两种:
除了AI模特、真人,二次元人物也可定制。
可替换的AI背景也很丰富。
据介绍,自定义背景功能、物品图生成也即将推出。
所以,小K电商图是如何实现这些效果的呢?
结合自研姿态算法
小K电商图的底层技术可以简单划分为两部分:生成+控制。
生成能力来自开源的Stable Diffusion。
控制方面则引入了小K自研的一系列算法,其中以姿态算法最为突出。
要知道,AI画画很长一段时间都无法画好人手,在可控性上表现也比较差,这是因为扩散模型自身的特性使然。
后续随着Contro.NET出现,通过给预训练扩散模型增加一个额外的输入,可以控制Stable Diffusion生成的细节。
这里可以是各种类型的输入,包括草图、边缘图像、语义分割图像、人体关键点特征、霍夫变换检测直线、深度图、人体骨骼等。
由此,Stable Diffusion加上人体姿态估计算法(Openpose)可以很好控制人物动作生成。
小K电商图的技术逻辑也是如此,不过他们采用了性能更加稳定的自研算法。
基于这套算法,小K的另一款视频动捕产品——小K直播姬已经实现了通过普通RGB摄像头、无需任何传感器,即可实现3D动捕。
并且在手指细节的处理上表现很好。
因此,对于没有四肢的人台图,小K电商图可以做到直接识别。自动补充头部、画手能力提升也得益于该算法。
在解决了姿势可控后,还需要解决面部可控。在这方面小K电商图引入了LoRA。
LoRA本来是微软研究团队早在2021年提出的一项大语言模型微调的技术,可以大大提高微调训练速度。
去年底,韩国科学技术院KAIST一位研究员@cloneofsimo与HuggingFace合作,将此方法扩展到Stable Diffusion上。
不仅实现了单块11GB显存的RTX2080Ti实现模型完整微调,同时原始模型权重冻结,新训练出来的权重可以保存为3MB大小的单个文件发布。
这项技术被AI绘画爱好者用来让模型固定生成一个物体,最流行的就是固定一个人物形象。
在CivitAI社区里,每个微调好的权重就叫做一个Lora,就相当于一个人物模版,所有人都可以方便下载使用。
最后在背景方面,为了满足电商场景下的需求,小K也做了更强的控制。
比如一些情况下,用户其实只想替换模特人脸,其他都不做改变。
那么在这种情况下,AI还是会重新绘制一张新图,不过会保留95%的相似度。
如果用户想替换背景,算法则会在光影等细节上做更多补充,力求图像自然、逼真。
所以,是谁带来了小K电商图?
从游戏到AI再到AIGC
小K电商图的打造者名叫云舶科技,主打AIGC虚拟内容创作生产。
团队成立于2017年,由出身游戏行业的梅嵩和陈敏联合创立。
其中,梅嵩是原蓝港互动SVP,《王者之剑》系列手游制作人,有超过10年游戏制作经验;陈敏是原蓝港互动CTO,核心团队有着近20年的研发经验。
凭借对游戏动画市场的了解,他们从创业初期就选择专注于AI视频动捕技术。
经过4年研发,基于云舶自研算法的3D虚拟直播产品小K直播姬在2021年推出,免费提供给广大VTuber使用。
如今,小K直播姬服务主播用户超40万,并且是B站、酷狗音乐等平台的官方虚拟直播工具。
成立6年以来,云舶科技都和AI、虚拟内容、游戏动画等领域保持高度关联。
去年AI画画大火后,云舶也快速跟进。结合自身特长和市场调研,最后确定同时推进两条路线:其一是AI游戏图领域,另一个就是AI电商图。
两条路线的底层逻辑相同:降本增效。
创始人兼CEO梅嵩介绍,电商行业的传统出图方式是线下实景拍摄,需要向模特、摄影、场地等付费,平均价格约为一张图100元。但如果用AI生成,这个数字能降到1块钱。
为什么先推进AI电商图这条线?
梅嵩给出了两个判断:
一方面,从市场角度来看,电商行业每年可能会有几亿个新货品,每个货品都要有自己的产品图。这意味着电商市场每年会需要几百亿张产品图,市场需求巨大;
另一方面,从技术角度来看,电商行业对AI制图的需求更强调可控,对创造性要求不高,这使得技术开发更加可控。
所以,小K电商图更早面世。
梅嵩也坦言,最开始开发时,模型生成的效果并不理想,研发团队一直在反复做调试。在今年年初时,他们也在思考,是不是引入姿态算法能让效果更可控?
结果刚好ControlNet出来了,帮我们验证了想法,也省去了一些试错环节。
目前小K电商图已正式发布,并已有几十家电商行业用户进行内测,1.2版本也即将上线。
梅嵩透露,之所以会选择这时发布产品,一方面是想要抢占市场先机,目前业内类似产品还相对少见;另一方面也是团队对自身的迭代速度有信心。
之前我们发布小K直播姬就是遵循这样的逻辑,后面实现了几乎周更产品迭代,整个产品的功能也越来越丰富。
如今,研发团队也在加速推进2.0版本,新一代产品希望能实现对AI模特姿势灵活调整,并将平铺服装直接转换成上身效果。
与此同时,云舶科技也在筹措最新一轮融资。
作为一家初创公司,云舶的融资步调其实有点特别——首轮天使轮融资是在公司成立三年后才完成的。
原因在于云舶选择在成立后,首要搞定基础研发。
梅嵩非常坦诚地表示,创始团队出身游戏行业,最开始对AI的了解并不多,所以他们用更多耐心、时间和精力来死磕研发,终于在2020年拿出了满意的demo。
跑通底层技术后,从2020到2021,云舶的脚步明显加快,先后完成A轮、A+轮融资,金额都为数百万美元。2021年年底,让云舶开始展露头角的小K直播姬也顺利上线。
在这事上,梅嵩自己也调侃:
哪有创业公司做一个产品要做4年的?
给我们投天使轮的BV百度风投当时还说:别的不谈,你们的坚持还是非常值得鼓励的。
如今随着AIGC浪潮到来,AI在辅助创作、提高工作效率等方面都进一步打开空间,应用层的爆发已初见端倪。
量子位智库预测,到2030年我国AIGC市场规模将达到万亿级别。
2025年预计会成为产业第一次规模爆发点,年复合增长率有质变性提升。在这之后2年,产业将迎来应用爆发期,大量应用层玩家涌入。
所以回到当下来看,不仅是大模型公司值得关注,既懂技术又懂应用内容的行业玩家,也会成为AIGC应用指数级爆发的主力军,迎来属于自己的新一轮增长期。
— 完—