您当前的位置:首页 > 电脑百科 > 人工智能

手把手教你用 AI 取代淘宝模特

时间:2023-04-26 11:24:55  来源:果壳网  作者:

“ 这是不是第一个被 AI 颠覆的职业?”我在小红书上看到这么一个热搜,点开发现, 人们说的是淘宝模特

大概内容是说如果淘宝店主完全用 AI 穿拍,可以不用在模特、化妆师、摄影师身上反复掏钱了,而且 AI 是 24/7 在岗,出图更是以秒为单位,成本低廉,打几行 prompt(提示词),把衣服图样导入,再调整、挑选就可以了。

著名牛仔装品牌李维斯(Levi's)就曾宣布今年开始测试用 AI 模特来展示服装。因为相比真人,品牌可以任意选择模特的年龄、肤色、体态。

对淘宝模特来说,现在除了要和同行竞争,还要和 AI 竞争。

有意思的是,消费者对 AI 模特并不满意,因为 “没人味”,也 “展现不了真实的衣服质感”,因为衣服也“数字化”了,“是假的”。

但对于视觉工作者来说,AI 工具这般涌现让我无比兴奋,我开始研究如何做出 AI 模特,让他们穿上我指定的服装……

结果, 单个人形的效果让我很满意,于是我萌生了一个想法:干脆就做一个全员 AI 的虚拟时尚杂志。

我在小红书上运营这本杂志 @AI Bubbles泡泡丨作者提供

初试:Midjourney V5 是能出片,但无法精确还原衣服

自 Midjourney 在三月底更新到了第五代后,这个 AI 画画工具又在全球的社交网络上掀起一股狂潮——人们热烈地分享自己的“摄像级”画作,以及对应的提示词,以下就是我用 Midjourney V5 生成的:

Midjourney 有“垫图”功能,也就是上传图片让 AI 参考用户指定的场景、色彩、布局、物件等等。

那么,如果我 把衣服照片当作底图发给 Midjourney,再用文本指令让 AI 帮我生成一个人,是不是就能让模特穿上我指定的衣服了?

一分钟后,我得到了答案:能,但不完全能。

Prompt: A young girl in a rainbow tank top, knitted and crocheted, wearing yellow sun glasses, ink-washed ship tattoo, hazy, dreamlike quality.

(一个身穿彩虹背心的年轻女孩,针织和钩编,戴着黄色太阳眼镜,有墨水脱色感的船舶纹身,朦胧,有梦境般的质感。)

虽然图片非常惊艳,但并不能 1:1 还原衣服的细节。 你看,袖套就不见了!(AI 工具的进化,简直是以日为单位的,没准 V6、V7 就能解决这个问题了。)

再试:自己训练一个专属模型?让它记得住我喂的衣服单品

现有的画画 AI 并不能满足我的“刁钻”需求,有没有可能自己整一个呢?我想到了“炼丹”。

炼丹就是人将大量灵材置入丹炉,最终凝炼成丹。到了 AI 绘画界, 炼丹就是给 Stable Diffusion 这样的大模型,专门投喂一个指定方向(比如二次元)的数据集,训练出对应垂类的小模型,让 AI 可以根据需求精准出图。

丹要咋炼?有一种训练方法叫 LoRA,你按照自己的喜好微调 Stable Diffusion 大模型,然后就能导出体积更小的模型,保存、传播都更方便了。

比如,我的一个朋友就通过投喂了 200 余张明清两代水墨大师的画作,做出了国风墨心模型:

通过 LoRA 的脚本训练,不光可以训练风格模型,还可以训练人物角色模型。在 CivitAI 上,就有人做了“瑞秋”Jennifer Aniston 的模型:

能记住风格和人物,那记一件衣服应该不难吧?我跑了一遍流程后,发现……还真的行。我先发出一些实验成果:

接下来,我将手把手教大家训练出一个服装模型。 你千万别刚滑几屏就被劝退了,一步步跟着做,其实非常简单

注:本教程只适用于 windows 电脑

保姆级教程:如何训练一个服装模型

准备:看看自己的显卡,安装必备软件

选显卡的时候,主要看算力和显存。其中,显存的重要性主要体现在以下两个方面:

  • 训练模型时有更大的显存,就能用上更高清的素材;
  • 生成图片如使用放大算法,如果显存够大,放大倍数也能跟着上去。这样,生成的图片细节会更多,质量也会更高。

我在用的显卡是 RTX 3070 8G,应对本文的训练场景够用了。我在网上找到了一张“常见显卡 AI 跑图性能、性价比表”,供大家参考:

接下来,准备 Kohya_ss 版本的 LoRA 脚本需要的环境:

  1. 安装 Python/ target=_blank class=infotextkey>Python 3.10 (https://www.python.org/ftp/python/3.10.9/python-3.10.9-amd64.exe) ,下载成功后,直接双击安装,唯一需要注意的是勾选 【add python to the ‘PATH’ environment variable】 ;
  2. 安装 Git (https://git-scm.com/download/win) ,找到你电脑的对应版本号,下载,安装;
  3. 安装 Visual Studio 2015, 2017, 2019 和 2022 的可再开发组件 (https://aka.ms/vs/17/release/vc_redist.x64.exe) ,下载,安装。

在安装好 Python 3.10 和 Git 后,搜索 Powershell,点击右键,以管理员模式启动,输入 【Set-ExecutionPolicy Unrestricted】后回车,接着会跳出一段文字,选择 【A】回答 【全是】即可,关闭该窗口。

然后,就可以安装 Kohya_ss 版本的 LoRA (https://Github.com/bmaltais/kohya_ss)了。如果你想安装在电脑上某个特定位置,先在地址栏处敲击 【cmd】,回车,你会进入这样一个命令窗:

将以下代码粘贴到窗口中:

git clone https://github.com/bmaltais/kohya_ss.git

cd kohya_ss

python -m venv venv

.venvsactivate

pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

pip install --use-pep517 --upgrade -r requirements.txt

pip install -U -I --no-deps https://github.com/C43H66N12O12S2/stable-diffusion-webui/releases/download/f/xformers-0.0.14.dev0-cp310-cp310-win_amd64.whl

cp .bitsandbytes_windows*.dll .venvLibsite-packagesbitsandbytes

cp .bitsandbytes_windowscextension.py .venvLibsite-packagesbitsandbytescextension.py

cp .bitsandbytes_windowsmain.py .venvLibsite-packagesbitsandbytescuda_setupmain.py

accelerate config

在执行 【accelerate config】后,它将询问一些设置选项,请按照以下选项依次选择:

This machine No distributed training NO NO NO all fp16

执行完后,就算装好啦!

如图,文件夹的名字叫 【Kohya】, 点进去后可以看到一个叫 【kohya_ss】的文件夹。

我们还需要新建一个文件夹,比如 【Lora Training Data】用来存放后续要用的训练数据。

准备训练:多找几张图

恭喜你成功到了这一步,接下来就是 fun part 啦!

先回答一个问题: 到底需要准备多少张图做训练呢?能不能就喂一张图片?

我帮大家试了:

可见,AI 能学习到大致风格,模特穿着也像样,但没法还原花纹和细节。因为单张图片能提供的信息有限。所以, 我们应该尽量给出衣服在各个角度的图像。

以这一款动物帽子为例,我准备了三个角度的图像。

虽然数量不多,但效果竟然还不错:

插播一句,图像的清晰度会直接影响到训练的质量, 如果图片不够清晰,我一般会先用 Topaz Gigapixel 这类 AI 修复工具将它先放大处理。

再插播一句, 为了让 AI 更有针对性地捕捉和学习到目标对象,我还会裁剪图片,尽量剪掉不必要的画面, 让目标单品更显眼

我们回到 【Lora Training Data】文件夹中,在里面创建一个新文件夹,随便命名,我起的是 【dongwumaozi】(动物帽子),然后在其中创建 3 个子文件夹,依次是 【image】、 【log】和 【model】,如图:

接着,你在 【image】这个文件夹里,再创建一个文件夹,格式是 【数字_训练的概念】, 【数字】指的是图片会被训练多少遍,我写了 【100】(100 是默认训练次数,经试用,我觉得效果都不错),AI 就会把我每张照片训练 100 遍:

然后,将准备好的图像刚进去:

让 AI 自动给图像标注

接下来,我们要打开 kohya 脚本。到 【kohya_ss】这个文件夹里,找到 【gui.bat】这个运行文件。

双击后,你会看到这么一个窗口:

复制其中的地址到浏览器中,回车。

我们会在这个界面里,指导 AI 自动给图像做标注

  1. 选择上面的 【Utilities】 ;
  2. 在 【Captioning】 下选择 【BLIP Captioning】 作为标注手段;
  3. 选择刚刚放图片的文件夹;
  4. (可选)在 【Prefix to add to BLIP aption】 处,看是否加入自造词,方便在后续用模型时用这个词更高效地做出对应概念,比如我这个案例里就用 【dongwumaozi】 作为一个自造关键词;
  5. 点击 【Caption images】 ,等待 AI 自动标注。

当你看到 【captioning done】后,AI 就算是标注好了。

回到 【image】文件夹后,就能看到和图片名称对应的 txt 文本描述了。如果你对机器标注的效果不太满意,打开 txt 文档手动修改,保存即可。

我也写累了,但快能开始训练了啊!

坚持住,最后再做些设置就可以开始训练了!

还是在刚才你执行 AI 标注的界面,点击 【Dreambooth LoRA】,点击 【Source Model】,选择你想进行训练的基础模型,默认可选 Stable Diffusion v1.5(也可以是你在 CivitAI 上下载的其他与 Stable Diffusion v1.5 平行的模型),底模我用的是 Deliberate。

需要提前下载的模型

Stable Diffusion V1.5 下载地址:

https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main

Deliberate 下载地址:

https://civitai.com/models/4823/deliberate

点击 【Source Model】右侧的 【Folders】,选择此前我们设置的 【Lora Training Data】底下的 【image】、 【log】和 【model】这三个文件夹。

目前在训练服装 LoRA 上,我感觉默认的训练参数效果已经很好,所以并没有再做额外的更改、调整。如果你对训练参数的设置感兴趣,可以去看看 Kohya 脚本的官方教程 (https://www.YouTube.com/watch?v=k5imq01uvUY&t=1597s)。

接下来,你就可以点击 【Train Model】炼丹了!

在 3070 上,训练时长差不多在 30 分钟左右,出去跑个步或者冲个澡,模型就训练好啦!

一般默认参数训练出来的 LoRA 大小在 9 M 左右,在 【model】这个文件夹里可以找到。

最后的最后,将 LoRA 文件拷贝到 【stable-diffusion-webui】的 【models】文件夹里对应的 【LoRA】文件夹处,再次重启 WebUI,点选出对应的 LoRA 后,写好关键词就可以生成“淘宝模特”图了:

以上图片皆由该 LoRA 生成。拿最后一张图举例,我提供以下关键词,供你参考:

正向关键词:dongwumaozi, masterpiece, best quality, photorealistic, a couple wearing black, posing for the camera, ((posing)), hugging, hands posing, (((cute couple))), wearing dongwumaozi, thick black knitted wool cap with pig ear shape decoration (loveboy’s logo label), ((black)), ((detailed face)), cinematic lighting, film poster, photo shoot, depth of field, film screeshot, soft light

另外,也可以输入一些常用的 负向关键词,比如“bad hands”等, 让 AI 消除这种生成可能

以淘宝模特和时尚杂志开篇,后面全在讲 Python

虽然在生成“动物帽子”这个案例中,喂 3 张图就有不错的效果, 但如果你的目标单品版型、材质都较为复杂,可能得备上 5 到 30 张不同角度的图,才能更好还原。

这篇教程就当是抛砖引玉,我期待能有更多朋友分享自己的训练经验和效果。

就我个人而言,比起 AI 模特,我在买衣服时更希望看真人试穿,因为这样材质和版型才更有参加价值。

不过,未来我可能会训练一个自己的模型,然后再去叠加服装的模型,看自己的试穿效果。

还在上学那会儿,我看日剧《校对女孩河野悦子》,剧里石原里美饰演的主角将不同服装搭配剪下来再贴在一起,以此寻找灵感。那时,我觉得时尚编辑就像是魔法师。 而现在,AI 给了我更多创造的机会。

电商模特、虚拟时尚博主、服装设计师的灵感助手……AI 还有更多可被激发的潜力。

现在涌现的 这些 AI,就像是一摊墨水,所有人似乎都可以来蘸一蘸,然后写下一些特别的字迹。

参考文献

[1] 开源图像模型 Stable Diffusion 入门手册(https://mp.weixin.qq.com/s/8czNX-pXyOeFDFhs2fo7HA)

作者:海辛

编辑:biu

本文照片如无特别指出,均为作者提供。



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: AI  点击:(7)  评论:(0)  加入收藏
微软新 AI 专利获批:帮老板追踪、评估你的工作表现
IT之家 3 月 28 日消息,根据美国商标和专利局(USPTO)公示的清单,微软获得了一项关于人工智能的专利,主要基于员工对文档的处理,帮助老板评估员工的工作表现。微软在专利中概述了一...【详细内容】
2024-03-28  Search: AI  点击:(14)  评论:(0)  加入收藏
专访AMD Lisa Su博士:AI PC的根本能力会促使消费者更新换代
科技行业如今最热门的话题毫无疑问是AI(Artificial Intelligence,即人工智能)。2022年底ChatGPT横空出世,唤醒了这头一直沉睡着的“野兽”。一时间,各行各业都在讨论AI,畅想着AI带...【详细内容】
2024-03-26  Search: AI  点击:(11)  评论:(0)  加入收藏
AI 手机一加 Ace 3V 售价 1999 起,3月25日正式开售
2024 年 3 月 21 日,一加正式发布一加 Ace 3V 。它是首发第三代骁龙 7+ 移动平台,采用5500mAh 大电池 + 长寿版 100W 超级闪充的续航组合,配备全新 1.5K 护眼直屏,更有全场景 AI...【详细内容】
2024-03-26  Search: AI  点击:(16)  评论:(0)  加入收藏
联合国大会通过首个有关 AI 的决议草案
IT之家 3 月 22 日消息,据央视新闻消息,当地时间 3 月 21 日,联合国大会投票通过了第一个有关人工智能(AI)的决议草案,以确保这项新技术能够惠及所有国家、尊重人权并且是“安全、...【详细内容】
2024-03-22  Search: AI  点击:(9)  评论:(0)  加入收藏
YouTube 为包含 AI 生成内容的视频制定新准则
AI 正在迅速改变内容的制作方式。现在,AI 模型可以书写文字、生成图像、制作视频,甚至可以合成听起来令人震惊的真实声音。随着这种技术变得越来越容易获得,公司也开始努力解决...【详细内容】
2024-03-19  Search: AI  点击:(18)  评论:(0)  加入收藏
开发者再分享 OpenAI Sora 生成的短视频:树叶大象、彩虹瀑布等
IT之家 3 月 19 日消息,OpenAI 今年 2 月推出 Sora 模型之后,迅速成为 AI 圈内头条,能够基于用户的一句话,生成最长 1 分钟的视频,效果接近实拍。OpenAI 目前并未向公众发布 Sora...【详细内容】
2024-03-19  Search: AI  点击:(13)  评论:(0)  加入收藏
用 80 年代的技术攻破大模型:研究人员让 AI 防线接近承受极限
作者 | AZANIA IMTIAZ PATEL译者 | 王强策划 | Tina生成式 AI 模型可以被 ASCII 编码愚弄,“彩虹团队”则让 LLM 的语义防线接近承受极限……据美国安全研究人员...【详细内容】
2024-03-10  Search: AI  点击:(13)  评论:(0)  加入收藏
刚刚曝光的 Claude3,直击 OpenAI 最大弱点
作为 OpenAI GPT3 研发负责人的创业项目,Anthropic 被视为最能与 OpenAI 抗衡的一家创业公司。当地时间周一,Anthropic 发布了一组 Claude 3 系列大模型,称其功能最强大的模型...【详细内容】
2024-03-05  Search: AI  点击:(31)  评论:(0)  加入收藏
AI Phone概念机来了:干掉传统手机App
在今年的MWC 2024上,科技厂商们都在大秀肌肉,纷纷展出各种产品或技术。而除了自家的主流产品展出外,其实还有很多新奇的概念型产品也在其中,吸引了不少参会者的注目。德国电信就...【详细内容】
2024-02-29  Search: AI  点击:(22)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条