数字人训练视频规范


规范背景

定制效果说明

因为数字人训练是1:1复刻,所以:
对人物形象而言:拍摄出来的人物表情、口型、手势、眼神等是什么样子,数字人训练出来就是什么样子
对人物嘴型而言:视频中的声音越清晰,杂音越少,训练出来的数字人口型效果越好。
对人物声音而言:拍摄视频时或单独提供的音频中,人物说话的音色、语调、语气是什么样,声音训练出来就是什么样
在定制时,应尽量提前确认好数字人形象未来的使用场景,根据视频内容风格、人设打造规划等,进行适合的服装、造型、说话语气的准备,以使得定制出来的数字人形象,符合使用预期

训练基本原理介绍

人物的形象(面部):
人物的形象(动作):
人物的声音:
人物的嘴型:
根据训练的基本原理,所以为了保障人物面部、动作、声音能更好的被识别,减少识别干扰,使得定制数字人达到足够还原真人的效果,就需要引导定制者,遵守一定的拍摄规范

拍摄概要

1、拍摄重点注意事项

  • 视频总时长需控制在3-5分钟(即人物讲话的时长),不允许在视频中间进行剪辑
  • 最终进行训练视频的参数:分辨率1080P,30帧,MP4格式,编码H.264,文件大小5G以内;
  • 视频开头需闭口静默5秒,结尾闭口静默10秒,用于训练嘴型闭合效果;
  • 人物的服饰,需注意:请勿穿戴密集性图案的衣服和饰品,如条纹、格子、动物纹理的服装,以及避免过于高领的衣物和摇晃的耳饰;
  • 人物的手势,需注意:不要出现强指示性动作,包括但不限于展示数字、挥手、OK、竖大拇指、指向自己、指向镜头等动作;手势不要遮挡或离面部过近;手势不要超出拍摄画面,尽量不要抬手超过肩膀以上;尽量避免持续性的手势动作,以及过于频繁的手势;
  • 人物的姿态,需注意:不要出现点头、摇头,若有侧脸角度需保持在45°以内,脖子尽量露出,并避免讲话过程中头部大幅度上下左右浮动;
  • 人物的声音,需注意:拍摄过程中同步录制讲话的声音,不能有杂音和明显的底噪;
  • 人物的发型,需注意:头发尽量避免碎发及散发遮挡面部、长马尾在脑后晃动的情况;
  • 人物的眼神,需注意:无论是选择面向镜头,还是看向任何其它角度,眼神都要聚焦,要有视觉焦点,眼神不要飘忽不定。
  • 整体拍摄场景,需注意:人物打光均匀,避免面部/脖子出现阴影,拍摄背景无暗角;
  • 拍摄过程,避免设备晃动,人物需尽量熟悉讲话文稿,减少卡顿、读错的情况,若卡顿、读错,只需继续保持状态读下去即可,表情不要因错误而变化;
  • 拍摄时,不建议人物佩戴眼镜;若必须佩戴,须避免镜片反光并保持正脸拍摄,;若有造型需要,可选择无镜片的粗框眼镜架佩戴。
  • 拍摄人员对人物的引导很重要,包括对身体姿态、表情、眼神、手势、说话等的指导,让人物表现得更自然
 

2、拍摄五步走

第一步
明确拍摄场景
使用实景:后续视频背景固定
 
第二步
拍摄场地准备
安静的拍摄环境
打光均匀无暗角
拍摄及收音设备
 
第三步
人物拍摄准备
明确形象使用场景
确定服饰是否合规
确定妆造是否合规
介绍拍摄注意事项
3-5分钟口播文稿——100字约20秒
 
第四步
进行拍摄
开始拍摄后
①人物闭口静默3秒
②按照设想的语气,播报3-5分钟
③播报结束,人物闭口静默10秒
结束拍摄
第五步
处理视频/音频
视频首尾剪辑(保留视频静默开头5秒-结尾静默10后的内容)
音频降噪处理
导出正确的视频格式
 
 

详细拍摄规范

拍摄前准备

1、拍摄环境准备

  • 确保拍摄光线均匀、充足、画面中无阴影、不过曝;避免人物脖子前方出现阴影。
  • 现场安静无噪音,无回声,并测试收音效果,检查声音是否清晰,底噪是否过高。如果回声明显,训练出来的数字人可能出现嘴型错位的问题

2、人物拍摄准备

  • 确认人物拍摄的姿态,如正面、侧面,全身、半身,站姿、坐姿、走动等。
  • 根据人物身高、姿态,以及眼神朝向,调整拍摄设备、提词器(若有)位置,随后稳固设备避免晃动。如非特殊需要,否则不建议使用俯视或仰视的视角。
  • 确认人物想要的眼神方向,避免出现如拍正面姿势,眼神却斜视的情况。
  • 与人物确认提词器(若有)滚动速度和文字显示的左右宽度,避免拍摄时眼神左右、上下瞟动。
  • 确保人物画面居中,人物大小适中,人物左右两边留出一定空间,避免人物做手势时超出画面的情况。
  • 若人物准备拍摄侧身姿态,且佩戴眼镜的情况下,须拍正脸,最好不佩戴眼镜。
  • 确认该数字人形象的使用场景,根据视频内容风格、人设打造规划等,进行适合的服装、造型、说话语气的准备,避免未来出现文稿内容与人物表现不搭调的情况,比如表情严肃的专家形象,播风趣幽默的文稿。
 
 

3、服化道准备

  • 面部:干净无油光,尽量做一些妆造,用于遮盖面部瑕疵,避免浓密胡须遮挡嘴部。不建议人物佩戴眼镜,若必须佩戴,;若有造型需要,可选择无镜片的粗框眼镜架佩戴。
  • 发型:发型规整,可以用发胶定型,避免明显的发缝、碎发,尽量减少毛刺感;避免刘海过长遮挡五官、面部轮廓;
  • 服装:选择纹理简单、平整、褶皱少的服装,不要选择格子、条纹、动物纹理服装,注意避免带有密集图案的领带;注意衣服颜色与背景需有差异。
  • 服饰:避免佩戴反光材质的配饰(如金属链、手表等),不建议佩戴会来回晃动的耳环。
 

4、文稿准备

准备熟悉的文稿,在拍摄时,就不易读错,声音就能更加自然的表现,人物整体的姿态、动作、表情也会呈现的更加从容自信。文稿字数,可根据录制3-5分钟(100字约20秒)的时长进行准备。
若用不熟悉的文稿,虽然允许读错和出现卡顿的情况,但次数多了必然会影响人物拍摄的状态,进而影响拍摄效果。

拍摄中注意

1、肢体动作

  • 拍摄中,避免手势超出画面的情况。若超出画面,训练出的数字人手势也会超出画面
  • 拍摄中,尽量使用通用手势,避免出现有语义或指向性的动作手势,如摆手、摊手、竖大拇指点赞、OK、展示数字、指向自己、指向镜头等,否则容易产生手势和播报内容不适配的情况。
  • 拍摄中,应避免与当下情绪反差较大的动作,比如本来在情绪稳定的说话,手却做出突然握紧、锤击等动作。
  • 拍摄中,避免大幅度移动身体或摆动手臂,手势勿遮挡嘴部、脖子,不要有摸头摸脸等动作,确保面部全程完整出现,避免影响训练效果。
  • 拍摄中,不要出现带有指示性的点头、摇头动作,不要出现突然低头、歪头、侧头的情况
  • 拍摄中,不论采用的是正面还是侧身姿态,都应尽量避免头部大幅度的左右上下浮动,不然容易造成脖子界限不明显,影响面部识别,导致下巴训练出现异常。
  • 拍摄中,无论哪种身体姿态,都应保持身形挺拔,更能体现出精气神。
  • 拍摄中,人物若侧身拍摄,侧脸角度不要超过45度
 

2、面部表情

  • 面部表情自然,自信从容的说话。
  • 眼睛无论是选择平视看向镜头,还是平视前方,亦或是看向任何其它角度,眼神都要聚焦,要有视觉焦点,眼神不要飘忽不定。
  • 避免与讲话无关的表情(皱眉、挑眉、噘嘴、舔嘴、抿嘴、吞咽口水等),若是习惯,需尽量克服,否则后续使用数字人进行播报时,可能出现表情和文案内容不搭的情况。
  • 人物说话的口型,应尽量饱满,避免因为口型变动幅度小,导致产生训练出的数字人口型和声音匹配不上的错觉。
 

3、声音表达

  • 拍摄视频尽量连续不中断,若读错字可忽略,面部表情不要出现异常,可以继续录制。若卡壳比较严重,建议使用熟悉的文稿,重新录制。
  • 声音自然,使用日常说话的语调、语气开口说话,也可以根据对未来视频内容、人设打造的规划,自由决定使用平静叙述、慷慨激昂,欢欣喜悦、缓慢沉稳、抑扬顿挫等等的语气进行说话。但必须注意,训练出来的声音也会呈现出相同的音色、语调、语气,所以在未来使用中,如果文稿是风趣幽默的内容,而拍摄时的语气是缓慢沉稳的,那么就会出现风格不搭的情况。
  • 拍摄时,说话吐字清晰、口型正确。
视频中的声音越清晰,杂音越少,训练出来的数字人形象口型效果会越好,声音的还原度也越好。
 

实景拍摄注意

实景拍摄,背景无法替换,使用有局限性,需明确自己未来数字人的使用场景。确定实景拍摄后,需注意:
人物面部以及脖子后面的背景,需保持干净纯色,尽量减少复杂线条的出现,以确保面部识别准确。
 

走动拍摄注意

拍摄时,人物可来回走动,训练出来的数字人,也会一边说话一边来回走动,依然是拍摄时走动什么样,训练出来就是什么样的原理。
若要拍摄走动姿态,需注意:
1、尽量保证镜头跟随人物的移动,让人物始终处于画面中
2、人物的面部大小、角度稳定,人物头部的转动幅度不要过大、过快,否则易影响面部识别,进而影响训练效果;
3、在运镜过程中,维持镜头转动速度的平稳,不要突然加快,保持稳定的拍摄角度,确保人物面部的稳定性,否则易影响面部识别,影响训练效果;
4、来回走动过程中,说话的口型应尽量张大,避免口型变动幅度小,影响嘴型训练;
5、走动过程中,收音务必清晰,应避免出现明显的走路声、杂音、衣服摩擦声等;
 

拍摄视频规格

1、视频规格
  • 时长:视频时长保证在4-7分钟
  • 视频大小:不超过5G
  • 尺寸:9:16(竖屏)/16:9(横屏)
  • 分辨率:1080P,30帧,不要开启HDR录制模式
  • 格式:MP4格式
 
2、相机&镜头参数调整推荐
  • 相机档位设置:M档(手动模式)
  • 镜头焦段设置:推荐使用35、50、70、85mm其中某一焦段(根据场地大小和画面内容来决定)
  • iso感光度设置:300-800(在光源充足的情况下,iso越低越好,但最少不低于100)
  • 光圈设置:f2.8-f4.5(光圈过大会造成人物周边虚化过度并携带绿边,在人物较亮的基础上可减小光圈,光圈大小推荐f4.0)
  • 快门速度:在不影响人物光线的基础上,快门推荐在1/100-1/200
推荐操作:1.首先调整光圈至f4.0;2.然后调整快门速度至1/125;3.最后根据画面亮度调整iso的范围
 
3、其它
定制全身站姿这类,建议便用竖屏拍摄。
 

后期处理

1、剪辑
  • 只可进行掐头去尾式的剪辑,去掉开头、结尾多余画⾯,从静默开始到播报完的静默结束。
  • 避免视频从中间进行剪辑,否则可能导致出现跳帧的情况,这会使数字人也会有跳帧出现。
  • 若视频结尾有黑帧,需减掉。
2、美颜
  • 不要做任何的调色、美颜处理,经过美颜处理的视频,会影响训练效果。尽量在拍摄前就做好妆造。
3、 调音
  • 确保声⾳质量良好、清晰,可进行去底噪处理,但需保持声画同步。
4、视频导出
为便于视频文件传输,可将拍摄好的原视频,通过剪映按以下格式进行导出,减少文件大小。同时,这也是数字人训练时的推荐视频格式。
——分辨率--1080P、码率--更高、编码--H.264、格式--MP4、帧率--30fps、色彩空间--标准SDR-Rec.709
 

详细录制步骤推荐

为保证数字人的定制效果,推荐按照以下流程进行视频拍摄:
第①步:人物按既定姿态就位,调试画面至人物居中,确保人物眼睛平视前方,环境光线均匀无阴影、无反光,启动录制。
第②步:人物静默3秒,即保持好适合的体态、姿势和表情,嘴唇自然闭合。
第③步:使用提前准备的文稿,自然连贯说话4-7分钟,若有口误、忘词、错读、结巴等情况,不用紧张,保持状态继续说下去即可。
——拍摄过程中,随时注意人物的手势是否出画、是否出现否带有明显指向性的动作、抬手是否了超过肩膀、是否遮挡了面部/脖子、是否存在大幅快速摆头、突然低头、眼神是否出现飘忽、口型是否变动幅度过小不够饱满、说话声音不够清晰等的情况,若有可及时叫停,重新拍摄。
第④步:播报完后人物再次回到静默状态静默30秒,即可结束拍摄。

sunqingxin 2025年4月22日 18:49 收藏文档