2023 年,数字人直播彻底火了。根据艾媒咨询的统计,2022 年一年虚拟主播(数字人)企业注册增加数就高达 948 家,增速达 68 %。
数字人即虚拟数字人,指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物,也被称为虚拟形象、虚拟人等。
数字人
(1) 从驱动方式划分虚拟数字人的分类,可以分为真人驱动型和智能驱动型。
真人驱动型虚拟数字人:这种类型的虚拟数字人主要基于真实人物,通过视频监控系统捕捉用户的视频,实时与用户进行语音互动,并借助动作捕捉采集系统将真人的表情和动作呈现在虚拟数字人形象上,从而实现与用户的互动。
智能驱动型虚拟数字人:这种类型的虚拟数字人通过智能系统自动读取和解析外部输入信息,根据解析结果做出决策,生成数字人后续的输出文本,然后通过驱动人物模型产生相应的语音和动作,与用户进行互动。这些人物模型是通过AI技术预先训练而得,能够通过文本生成语音和对应的动画。随着人工成本逐渐攀升以及人工智能技术的不断进步,智能驱动型虚拟数字人有望成为未来的行业发展趋势。
(2) 从商业化和应用场景来区分,虚拟数字人可分为内容/IP型、功能服务型和虚拟分身型。
内容/IP型虚拟数字人:主要应用于影视、文娱和市场营销等领域。功能服务型虚拟数字人则更多地应用于行业服务场景,如电商、金融、教育、医疗、文旅等。这两种类型的虚拟数字人主要面向B端市场。
虚拟分身型虚拟数字人:除了服务于B端市场外,这种类型的虚拟数字人还满足C端用户的需求,用于虚拟空间中的形象分身和代理,例如在虚拟社交平台中的应用。
传统的虚拟人的实现主要由形象设计、建模、驱动、渲染4大环节组成。其中形象设计、建模、驱动、渲染环节主要依靠影视CG、VFX技术与游戏引擎等实现。
建模环节通过3D建模技术,将虚拟人形象进行细节精细还原。驱动环节则依赖于动作捕捉技术,将真实人类的动作迁移到虚拟人上,包括形体、表情、眼神和手势等方面的关键点变化。而渲染技术则通过实时渲染技术,提升虚拟人的逼真程度。
然而,随着技术的不断进步,制作虚拟数字人的过程变得更加便捷和高效。
现在,想要制作一个数字人分身,只需要提供一段3-5分钟的真人出镜口播视频,就可以提交克隆的需求。一般情况下,完成整个数字人的制作只需要3-5天的时间。这得益于精准控制数字人的嘴唇和肢体动作等关键要素,使得数字人的拟真度可以达到极高水平,甚至接近99%,其外表与真人基本无异。
腾讯智影
“腾讯智影”是一款集成了AI创作能力的智能创作工具,提供虚拟数字人、文本配音、文章转视频、模板创作、在线视频剪辑等功能,“智影数字人”是其中的核心功能,可提供数字人播报解决方案等相关解决方案。
小冰公司(前身是微软小冰团队)
小冰提供“人工智能数字员工”解决方案,在内容生成方面,依托小冰框架的人工智能创造能力(AIGC),数字员工可以快速学习业务数据,获取相应技能,稳定输出文本、图片、音频、视频等内容;而在交互能力方面,数字员工具备情感对话和多模态交互的特点,可进行人声定制,同时支持多语种和多方言交流。
硅基智能
硅基智能数字人汇集了多项领先技术,包括人物形象模拟、智能语音交互、NLP(自然语言处理)、无穿戴表情动作捕捉以及openGPT大语言模型等,将这些技术有机融合,从而迅速构建出外貌与真人接近,智力也接近真人水平的AI数字人。
借助人物形象模拟技术,硅基智能数字人能够模仿各种外貌特征,从肢体动作到面部表情,细致地还原真人的各种细微动作。
风平智能
风平智能借助先进的AIGC、NLP(自然语言处理)、AI驱动等技术,能够生成五官比例和人脸特征细节都逼真还原的超仿真数字人,同时接入类Chat GPT以及上百种语音模型,进一步让数字人拥有媲美人类的语言能力。
风平智能倾向于做好技术和产品,尤其注重数字人+大模型的AI数字人解决方案,已经涵盖了银行保险、基金证券、医疗、新东方、万达等一系列的大客户。也是目前唯一一个可以支持本地高达20G的高清视频作为背景的,这对有高质量要求的大企业帮助很大,可以做各种大屏幕的演示展览。
在数字人领域,许多公司都在不断探索创新。例如,腾讯智影提供了集成了AI创作能力的智能创作工具,小冰公司则专注于“人工智能数字员工”的解决方案,硅基智能则汇集了多项领先技术,风平智能则专注于数字人与大模型的综合解决方案。这些公司的努力和创新,正推动着数字人直播行业不断向前发展,为未来带来了更多可能性。