人脸肖像编辑指基于一幅给定的人脸图像,对人脸的属性或组成进行编辑,并且生成的图像看起来真实自然,其在影视制作、照片处理和交互式娱乐等方面具有广阔应用前景。针对这个问题,中国科学院自动化研究所媒体深度伪造与反伪造创新团队成员博士生邓琪瑶、副研究员李琦、研究员孙哲南等人提出了一种从参考图像学习目标人脸组成形状的人脸组成编辑算法(r-FACE)。该方法创新性地提出了多样化且可控的人脸组成编辑方法,并较好地保留原始图像的姿势、肤色等风格特征,与传统算法及商业PS算法等相比有明显视觉效果提升。相关成果论文Reference Guided Face Component Editing 获得6位专业审稿人一致肯定,被IJCAI 2020录用。
近年来随着生成对抗网络的发展,人脸肖像编辑已取得巨大进步。目前,主流的人脸肖像编辑方法聚焦于两类:基于标签条件的方法和基于几何指导的方法。基于标签条件的方法以预定义的属性标签为条件编辑人脸属性。然而,基于标签条件的方法以二值属性标签为条件,只适用于编辑外观纹理变化的显著属性(例如:发色、年老化和去除胡子等),难以实现抽象形状变化(例如:鹰钩鼻、丹凤眼等),缺乏控制高级语义人脸组成(例如:眼睛、鼻子和嘴等)形状的灵活性。为了能灵活编辑人脸组成的形状,基于几何指导的方法提出利用手动编辑的中间表示(例如:关键点,分割图和轮廓草图等)实现具有明显拓扑形变的人脸组成编辑。然而,直接将如此精确的中间表示用作形状指导对用户而言并不友好,这种方式费时费力并且要求用户具备一定的绘画技能。
针对这个问题,团队提出了一种从参考图像中学习目标人脸组成形状的人脸组成编辑算法,以图像补全模型作为基本框架,以缺失目标人脸组成的图像作为输入,从参考图像中学习相应的人脸组成形状信息补全缺失区域,实现对人脸组成的语义形状编辑。相比现有的基于参考图像方法,该算法要求相同身份的参考图像,由于这些参考图像可以是任意身份,因此进一步提高了生成图像的多样性。为了监督所提出的模型,团队选择采用contextual 损失约束生成图像和参考图像之间目标人脸组成形状的相似性,同时采用style损失和perceptual损失保持原始图像和生成图像之间姿势、肤色等风格特征的相似性,整体模型框架如图2所示。
除此以外,为了使框架聚焦于目标人脸组成,该方法设计了一个示例指导的注意力模块(Example-guided Attention Module),以融合原始图像的注意力特征和从参考图像中提取的目标人脸组成特征,进一步增强了模型的生成效果。总的来说,所提出框架打破了现有方法的2种限制:1)形状限制,通过不同的参考图像灵活地控制高级语义人脸组成的各种形状; 2)中间表示限制,不需要手动编辑精确的蒙版或草图就可以实现显著的几何变化。
团队提出的方法在常用人脸属性数据集CelebA-HQ上进行了定性和定量分析。实验结果表明,该方法能够生成高质量和多样化的人脸,并可以实现显著语义形状变化的人脸组成编辑。这也是团队在媒体深度伪造领域上的又一进展。
图1 基于参考图像引导的人脸组成编辑示意图
图3 不同方法比较结果:(c)复制-粘贴,(d)AttGAN,(e)ELEGANT,(f)Adobe Photoshop和(g)r-FACE,(a)和(b)分别表示输入图像和参考图像。
图4 混合人脸组成编辑样例