数字人常用概念

数字人

数字人是一种以数字形式存在于数字空间中的虚拟人物,它具有拟人或真人的外貌、行为特点,并具备一定的智能和情感,可以进行交互和表达。数字人也可以被称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。

服务型数字人:利用深度神经网络进行图像合成、高度拟真的虚拟人。

具备如下特点:

  1. 2D模型,通过拍摄真人视频训练生成
  2. 无表情&骨骼数据
  3. 只能由AI驱动
  4. 使用既定表情&动作

IP型数字人:由计算机图形学技术创造出来的与人类形象高度接近的数字化形象。

具备如下特点:

  1. 3D模型,通过艺术设计生成
  2. 有表情、骨骼数据
  3. 可由真人动作驱动
  4. 能呈现自定义表情&动作

剧本、画布和设置

视频制作、视频直播功能,都需要进行视频创作,下面以视频直播为例,进行说明。

  1. 视频素材:如图中1区域所示,包括模板、角色、背景、贴图、视频、商品、文本等素材。支持使用预置的,也支持自定义生成。
  2. 画面布局:简称“画布”,如图中2区域所示。主要为人物形象、背景、贴图、文本框、视频等内容大小、图层、位置的调整,这些都会在画布中设计和预览生成的效果。
  3. 开播设置:简称“设置”,如图中3区域所示,包括视频直播的各类设置。
  4. 剧本设计:简称“剧本”,视频制作、视频直播都需要经过剧本设计阶段,包含素材准备、画布设计、开播设置等操作,最终合成视频。

图1 直播间编辑界面

角色

数字人模型。

动作

数字人模型展示的动作。

捏脸

用户可根据自己的想法自由捏造风格化虚拟形象。

风格化素材

建模/捏脸时采用的五官、服饰、装饰等素材,比如发型、脸型、装饰、眉毛、鼻子等。

为什么选择华为云数字内容生产线

  • 云上一站式自助服务平台,简单高效


    从模型训练到内容生成,端到端自助服务

    支持批量生成数字人训练,任务管理可视化


    从模型训练到内容生成,端到端自助服务

    支持批量生成数字人训练,任务管理可视化

  • 数字人口型更精准,业界领先


    AI自矫正,口型精准匹配准确率95%+

    母语一次训练多语言适配,语言泛化能力强


    AI自矫正,口型精准匹配准确率95%+

    母语一次训练多语言适配,语言泛化能力强

  • 数字人形象更真实、更自然


    AI重打光,人脸与背景融合度高,图像更真实

    走动/侧身/持物/实景等复杂场景建模,动作更自然


    AI重打光,人脸与背景融合度高,图像更真实

    走动/侧身/持物/实景等复杂场景建模,动作更自然

  • 云底座海量算力资源


    一卡多路并发训练、推理,高效率低成本

    提供数字人的API/SDK调用接口,伙伴可集成至自有平台


    一卡多路并发训练、推理,高效率低成本

    提供数字人的API/SDK调用接口,伙伴可集成至自有平台

多场景覆盖,助力数字内容高效生产

企业代言

企业代言

  • 帮助企业建立品牌形象,长期积累品牌资产

    通过引入自创虚拟偶像IP,拥有对虚拟偶像的高度掌控权,保证与品牌的高度结合性。长期运营虚拟偶像,可成为品牌资产的一部分。

关键能力

AI+CG数字人自动绑定/驱动,时间缩短80%

自动化美型/写实捏脸,支持多种风格

单目摄像头视觉驱动 ,高精度实时渲染

电商直播

电商直播

  • 帮助企业直播间延长直播时长,抢占闲时流量

    用户可自主录入相关文案/音频剧本,设置预制互动问答,由数字人主播完成预定剧本任务,同时可实时后台编辑剧本内容,7*24小时轻松做直播。生成直播画面可推到国内主流直播平台。

关键能力

支持国内主流直播平台公屏弹幕信息,根据用户预设自动回复

支持用户实时编辑剧本,插播干预、真人语音接管等多种模式

支持资源、模板个性化配置与分享;让经销商管理更灵活

支持培训、代运营等增值服务,生态链运营伙伴加持,端到端保驾护航

支持对接直播平台,开放的接入方式

新闻播报

新闻播报

  • 数字新主播,一次训练,告别播报口误

    新闻播报场景严肃,主播往往经过层层筛选,对内容播报准确率要求高。数字人播新闻无需背稿,避免出错,还可以做到真假难辨效果,提高现有主持人的内容生产效率。

关键能力

支持最高4K分辨率导出

支持文本、音频驱动,1080p视频合成效率1:1.5

支持自动解析ppt素材

支持导入图片、视频、音频等素材,海量预制模板

支持敏感词检测

教育培训

教育培训

  • 在线教育课程录制提效工具,无需讲师频繁拍摄

    讲师可以减少视频录制频次,也不用担心面对镜头紧张影响培训录制效果,更多时间聚焦内容输出。多应用于教育机构、企业培训等场景,帮助建立更专业、更统一的形象。

关键能力

支持最高4K分辨率导出

支持文本、音频驱动,1080p视频合成效率1:1.5

支持自动解析ppt素材

支持导入图片、视频、音频等素材,海量预制模板

支持敏感词检测

智能客服

数字人智能交互

  • 借助平台智能交互驱动能力,技术服务商能直接将数字人集成多端,完成传统普通语音客服的升级迭代。

关键能力

支持个性化定义客服形象、声音,让AI服务过程更人性化

支持文本语音全方位交互,智能响应,满足客户需求

数字人直播视频帮助

华为云MetaStudio数字人

02:26

华为云MetaStudio数字人

数字人行业应用案例

01:17

数字人行业应用案例

华为云3D写实数字人能力展示

01:32

华为云3D写实数字人能力展示