数字人训练视频规范

规范背景

定制效果说明

本工具只训练正面的口播数字人形象，提供的训练视频，不能有歪头、侧头、仰头、大幅度点头、头部有遮挡、头部出视频的情况。

因为数字人训练是1:1复刻，所以：

对人物形象而言：拍摄出来的人物表情、口型、手势、眼神等是什么样子，数字人训练出来就是什么样子。

对人物嘴型而言：视频中的声音越清晰，杂音越少，训练出来的数字人口型效果越好。

对人物声音而言：拍摄视频时或单独提供的音频中，人物说话的音色、语调、语气是什么样，声音训练出来就是什么样。

在定制时，应尽量提前确认好数字人形象未来的使用场景，根据视频内容风格、人设打造规划等，进行适合的服装、造型、说话语气的准备，以使得定制出来的数字人形象，符合使用预期。

训练视频参考：

训练基本原理介绍

人物的形象（面部）：

人物的形象（动作）：

人物的声音：

人物的嘴型：

根据训练的基本原理，所以为了保障人物面部、动作、声音能更好的被识别，减少识别干扰，使得定制数字人达到足够还原真人的效果，就需要引导定制者，遵守一定的拍摄规范。

拍摄概要

1、拍摄重点注意事项

视频总时长需控制在3-5分钟（即人物讲话的时长），不允许在视频中间进行剪辑；
正面形象，头部无遮挡、无出屏，视频中无歪头、侧头、仰头、大幅度点头的情况；
最终进行训练视频的参数：分辨率720P，30帧，MP4格式，编码H.264，文件大小200M以内；

视频录制的时候，调整手机拍摄的参数，使用720P 30fps的参数，设置位置参考下图（不同手机会有不同）。

视频开头需闭口静默5秒，结尾闭口静默10秒，用于训练嘴型闭合效果；
人物的服饰，需注意：请勿穿戴密集性图案的衣服和饰品，如条纹、格子、动物纹理的服装，以及避免过于高领的衣物和摇晃的耳饰；
人物的手势，需注意：不要出现强指示性动作，包括但不限于展示数字、挥手、OK、竖大拇指、指向自己、指向镜头等动作；手势不要遮挡或离面部过近；手势不要超出拍摄画面，尽量不要抬手超过肩膀以上；尽量避免持续性的手势动作，以及过于频繁的手势；
人物的姿态，需注意：不要出现点头、摇头，若有侧脸角度需保持在45°以内，脖子尽量露出，并避免讲话过程中头部大幅度上下左右浮动；
人物的声音，需注意：拍摄过程中同步录制讲话的声音，不能有杂音和明显的底噪；
人物的发型，需注意：头发尽量避免碎发及散发遮挡面部、长马尾在脑后晃动的情况；
人物的眼神，需注意：无论是选择面向镜头，还是看向任何其它角度，眼神都要聚焦，要有视觉焦点，眼神不要飘忽不定。
整体拍摄场景，需注意：人物打光均匀，避免面部/脖子出现阴影，拍摄背景无暗角；
拍摄过程，避免设备晃动，人物需尽量熟悉讲话文稿，减少卡顿、读错的情况，若卡顿、读错，只需继续保持状态读下去即可，表情不要因错误而变化；
拍摄时，不建议人物佩戴眼镜；若必须佩戴，须避免镜片反光并保持正脸拍摄，；若有造型需要，可选择无镜片的粗框眼镜架佩戴。
拍摄人员对人物的引导很重要，包括对身体姿态、表情、眼神、手势、说话等的指导，让人物表现得更自然。

2、拍摄五步走

第一步

明确拍摄场景

使用实景：后续视频背景固定

第二步

拍摄场地准备

安静的拍摄环境

打光均匀无暗角

拍摄及收音设备

第三步

人物拍摄准备

明确形象使用场景

确定服饰是否合规

确定妆造是否合规

介绍拍摄注意事项

3-5分钟口播文稿——100字约20秒

第四步

进行拍摄

开始拍摄后

①人物闭口静默3秒

②按照设想的语气，播报3-5分钟

③播报结束，人物闭口静默10秒

结束拍摄

第五步

处理视频/音频

视频首尾剪辑（保留视频静默开头5秒-结尾静默10后的内容）

音频降噪处理

导出正确的视频格式

详细拍摄规范

拍摄前准备

1、拍摄环境准备

确保拍摄光线均匀、充足、画面中无阴影、不过曝；避免人物脖子前方出现阴影。
现场安静无噪音，无回声，并测试收音效果，检查声音是否清晰，底噪是否过高。如果回声明显，训练出来的数字人可能出现嘴型错位的问题。

2、人物拍摄准备

确认人物拍摄的是正面姿态，如全身、半身，站姿、坐姿等。
根据人物身高、姿态，以及眼神朝向，调整拍摄设备、提词器（若有）位置，随后稳固设备避免晃动。如非特殊需要，否则不建议使用俯视或仰视的视角。
确认人物想要的眼神方向，避免出现如拍正面姿势，眼神却斜视的情况。
与人物确认提词器（若有）滚动速度和文字显示的左右宽度，避免拍摄时眼神左右、上下瞟动。
确保人物画面居中，人物大小适中，人物左右两边留出一定空间，避免人物做手势时超出画面的情况。
若人物准备拍摄侧身姿态，且佩戴眼镜的情况下，须拍正脸，最好不佩戴眼镜。
确认该数字人形象的使用场景，根据视频内容风格、人设打造规划等，进行适合的服装、造型、说话语气的准备，避免未来出现文稿内容与人物表现不搭调的情况，比如表情严肃的专家形象，播风趣幽默的文稿。

3、服化道准备

面部：干净无油光，尽量做一些妆造，用于遮盖面部瑕疵，避免浓密胡须遮挡嘴部。不建议人物佩戴眼镜，若必须佩戴，；若有造型需要，可选择无镜片的粗框眼镜架佩戴。
发型：发型规整，可以用发胶定型，避免明显的发缝、碎发，尽量减少毛刺感；避免刘海过长遮挡五官、面部轮廓；
服装：选择纹理简单、平整、褶皱少的服装，不要选择格子、条纹、动物纹理服装，注意避免带有密集图案的领带；注意衣服颜色与背景需有差异。

服饰：避免佩戴反光材质的配饰（如金属链、手表等），不建议佩戴会来回晃动的耳环。

4、文稿准备

准备熟悉的文稿，在拍摄时，就不易读错，声音就能更加自然的表现，人物整体的姿态、动作、表情也会呈现的更加从容自信。文稿字数，可根据录制3-5分钟（100字约20秒）的时长进行准备。

若用不熟悉的文稿，虽然允许读错和出现卡顿的情况，但次数多了必然会影响人物拍摄的状态，进而影响拍摄效果。

拍摄中注意

1、肢体动作

拍摄中，避免手势超出画面的情况。若超出画面，训练出的数字人手势也会超出画面。
拍摄中，尽量使用通用手势，避免出现有语义或指向性的动作手势，如摆手、摊手、竖大拇指点赞、OK、展示数字、指向自己、指向镜头等，否则容易产生手势和播报内容不适配的情况。
拍摄中，应避免与当下情绪反差较大的动作，比如本来在情绪稳定的说话，手却做出突然握紧、锤击等动作。
拍摄中，避免大幅度移动身体或摆动手臂，手势勿遮挡嘴部、脖子，不要有摸头摸脸等动作，确保面部全程完整出现，避免影响训练效果。
拍摄中，不要出现带有指示性的点头、摇头动作，不要出现突然低头、歪头、侧头、仰头的情况。
拍摄中，不论采用的是正面还是侧身姿态，都应尽量避免头部大幅度的左右上下浮动，不然容易造成脖子界限不明显，影响面部识别，导致下巴训练出现异常。
拍摄中，无论哪种身体姿态，都应保持身形挺拔，更能体现出精气神。
拍摄中，人物若侧身拍摄，侧脸角度不要超过45度。

2、面部表情

面部表情自然，自信从容的说话。
眼睛无论是选择平视看向镜头，还是平视前方，亦或是看向任何其它角度，眼神都要聚焦，要有视觉焦点，眼神不要飘忽不定。
避免与讲话无关的表情(皱眉、挑眉、噘嘴、舔嘴、抿嘴、吞咽口水等)，若是习惯，需尽量克服，否则后续使用数字人进行播报时，可能出现表情和文案内容不搭的情况。
人物说话的口型，应尽量饱满，避免因为口型变动幅度小，导致产生训练出的数字人口型和声音匹配不上的错觉。

3、声音表达

拍摄视频尽量连续不中断，若读错字可忽略，面部表情不要出现异常，可以继续录制。若卡壳比较严重，建议使用熟悉的文稿，重新录制。
声音自然，使用日常说话的语调、语气开口说话，也可以根据对未来视频内容、人设打造的规划，自由决定使用平静叙述、慷慨激昂，欢欣喜悦、缓慢沉稳、抑扬顿挫等等的语气进行说话。但必须注意，训练出来的声音也会呈现出相同的音色、语调、语气，所以在未来使用中，如果文稿是风趣幽默的内容，而拍摄时的语气是缓慢沉稳的，那么就会出现风格不搭的情况。
拍摄时，说话吐字清晰、口型正确。

视频中的声音越清晰，杂音越少，训练出来的数字人形象口型效果会越好，声音的还原度也越好。

实景拍摄注意

实景拍摄，背景无法替换，使用有局限性，需明确自己未来数字人的使用场景。确定实景拍摄后，需注意：

人物面部以及脖子后面的背景，需保持干净纯色，尽量减少复杂线条的出现，以确保面部识别准确。

走动拍摄注意

拍摄时，人物可来回走动，训练出来的数字人，也会一边说话一边来回走动，依然是拍摄时走动什么样，训练出来就是什么样的原理。

若要拍摄走动姿态，需注意：

1、尽量保证镜头跟随人物的移动，让人物始终处于画面中；

2、人物的面部大小、角度稳定，人物头部的转动幅度不要过大、过快，否则易影响面部识别，进而影响训练效果；

3、在运镜过程中持镜头转动速度的平稳，不要突然加快，保持稳定的拍摄角度，确保人物面部的稳定性，否则易影响面部识别，影响训练效果；

4、正面形象，头部无遮挡、无出屏，视频中无歪头、侧头、仰头、大幅度点头的情况；

5、来回走动过程中，说话的口型应尽量张大，避免口型变动幅度小，影响嘴型训练；

6、走动过程中，收音务必清晰，应避免出现明显的走路声、杂音、衣服摩擦声等；

拍摄视频规格

1、视频规格

时长：视频时长保证在3-5分钟
视频大小：不超过200M
尺寸：9:16（竖屏）/16:9（横屏）
分辨率：720P，30帧，不要开启HDR录制模式
格式：MP4格

视频录制的时候，调整手机拍摄的参数，使用720P 30fps的参数，设置位置参考下图（不同手机会有不同）。

2、其它

定制全身站姿这类，建议便用竖屏拍摄。

后期处理

1、剪辑

只可进行掐头去尾式的剪辑，去掉开头、结尾多余画⾯，从静默开始到播报完的静默结束。
避免视频从中间进行剪辑，否则可能导致出现跳帧的情况，这会使数字人也会有跳帧出现。
若视频结尾有黑帧，需减掉。

2、美颜

不要做任何的调色、美颜处理，经过美颜处理的视频，会影响训练效果。尽量在拍摄前就做好妆造。

3、调音

确保声⾳质量良好、清晰，可进行去底噪处理，但需保持声画同步。

4、视频导出

为便于视频文件传输，可将拍摄好的原视频，通过剪映按以下格式进行导出，减少文件大小。同时，这也是数字人训练时的推荐视频格式。

——分辨率--1080P、码率--更高、编码--H.264、格式--MP4、帧率--30fps、色彩空间--标准SDR-Rec.709

详细录制步骤推荐

为保证数字人的定制效果，推荐按照以下流程进行视频拍摄：

第①步：人物按既定姿态就位，调试画面至人物居中，确保人物眼睛平视前方，环境光线均匀无阴影、无反光，启动录制。

第②步：人物静默3秒，即保持好适合的体态、姿势和表情，嘴唇自然闭合。

第③步：使用提前准备的文稿，自然连贯说话4-7分钟，若有口误、忘词、错读、结巴等情况，不用紧张，保持状态继续说下去即可。

——拍摄过程中，随时注意人物的手势是否出画、是否出现否带有明显指向性的动作、抬手是否了超过肩膀、是否遮挡了面部/脖子、是否存在大幅快速摆头、突然低头、眼神是否出现飘忽、口型是否变动幅度过小不够饱满、说话声音不够清晰等的情况，若有可及时叫停，重新拍摄。

第④步：播报完后人物再次回到静默状态静默30秒，即可结束拍摄。