AI图像和视频换脸大师Facefusion详解教程

Facefusion是一款首屈一指的AI换脸工具，可以对图像换脸，也可以对视频换脸。本教程将详细讲解Facefusion中各个参数的用法。

截止目前（2025年6月7日），官方推出的Facefusion最新版本号是3.3.0，网上有网友自行改变版本号发布，出现了4.0甚至其他的版本，都不是官方版本号，下面我用的是官方标准版3.2的一键整合包，按钮颜色显示为红色。如果你使用的Facefusion的按钮是紫色或绿色等，都是被网友改过后的版本，这些改进后的版本里面通常添加了一些额外的信息和号码，大家在使用时要注意分辨。

一、一键整合包的使用方法

下载下来的Facefusion整合包要解压到没有任何中文的目录下运行，建议N卡显存6G以上，显存越大越好，如果显存低，则可以使用CPU运行，只是出图很慢，也就是说，Facefusion可以在绝大多数电脑上运行，无论显卡。

注意：导入到Facefusion的图像、音频、视频文件所在的目录位置以及文件名称最好也全都是字母构成，使用中文可能带来不稳定。

二、启动界面

启动后的Facefusion界面如下图所示。

三、执行模式参数

执行模式参数如下图所示。

这些执行模式共包含10个，我首先把每个执行模式的作用大体概述一下，然后再详细说明。

（1）face_swapper（换脸器）：核心换脸功能，能把一个人的脸部特征替换到另一个人面部。比如制作创意视频，将演员 A 的脸替换到演员 B 表演画面里，实现 “换脸演出” 。

（2）face_enhancer（脸部增强器）：提升转换后视频中人物面部清晰度，让面部细节更突出。处理低画质素材换脸时，开启它可让换脸后的脸更清晰、真实。

（3）deep_swapper（深度换脸器）：可能是更深度、精细的换脸模式，在复杂场景（如多人换脸、高分辨率画面）下，提升换脸精准度与自然度，让换脸效果更逼真。

（4）age_modifier（年龄修改器）：用于调整面部呈现的年龄，可让脸变年轻或变老。比如把年轻人的脸模拟出老年状态，用于影视角色年龄跨度表现。

（5）face_debugger（人脸调试器）：开启遮罩处理时的调试模式，方便查看预览区域红线、点等，辅助精准调整换脸区域。像处理有遮挡（如头发遮脸）的换脸场景，可借它调试遮罩范围，确保换脸贴合。

（6）expression_restorer（表情恢复器）：可恢复、调整面部表情，让换脸后的表情更自然。比如原视频人物表情僵硬，用它优化，使换脸后表情生动，像让面无表情的脸呈现微笑表情。

（7）face_editor（人脸编辑器）：对脸部五官进行细致调整，比如放大眼睛、调整眉毛形状等。例如想制作卡通风格换脸，用它把人脸五官改成卡通化比例。

（8）frame_colorizer（帧着色器）：能为照片、视频上色，给黑白素材或想改变色调的内容重新着色。比如给老电影黑白片段换脸后，用它上色成彩色，还原复古色彩风格。

（9）frame_enhancer（帧增强器）：提升转换后视频整体清晰度，优化画面质量。换脸后的视频画面模糊，开启它可让整个视频画面更清晰锐利。

（10）lip_syncer（嘴唇同步器）：用音频驱动视频中人物嘴型，让嘴型与音频匹配。比如给换脸后的人物配音，开启它可让人物嘴型随配音自然变动，像制作虚拟主播说话视频。

cut-off

（1）Face_swapper

换脸器，这是换脸必须要选择的选项，右侧源文件添加换脸图像，下面目标文件添加被换脸的图像，也就是说，源文件的脸换到目标文件的脸上，当添加源文件图像和目标文件图像后，程序会自动完成换脸，但是，此时你会发现，换脸后，脸部不清楚。如何让换脸后的图像更清楚，你接着往下看就行。

选择换脸选项后，下面还有两个换脸参数，一个是换脸模型，一个是换脸像素分辨率，如下图所示。

换脸模型包含10个，默认使用inswapper_128_fp16，如下图所示，

以下是FaceFusion中这十个换脸模型的用途简要说明：

a. blendswap_256：采用融合交换算法，以256×256分辨率处理，在融合面部特征时注重自然过渡，适合追求柔和换脸效果的场景，像日常创意短视频换脸，让换脸后的面部与原画面融合更和谐。

b. ghost_1_256、ghost_2_256、ghost_3_256：属于GHOST系列模型，256×256分辨率，在肤色匹配、光影处理上表现好，能让换脸效果更逼真，在影视制作、创意设计等专业领域，用于复杂场景换脸，提升视觉真实性。

c. hififace_unofficial_256：256×256分辨率，强调换脸的高清质感，在处理一些对脸部细节要求高的内容，比如精致肖像换脸时，能较好保留面部纹理、毛孔等细节，让换脸更细腻。

d. inswapper_128：以128×128分辨率运行，计算量相对小、处理速度快，适合对画质要求不极致，追求高效处理的场景，像简单的社交娱乐换脸，快速出效果。

e. inswapper_128_fp16：基于inswapper_128，用16位浮点数计算，进一步优化速度，减少资源占用，在实时性要求高的场景，如直播换脸预览，能让换脸过程更流畅，是常用的高效模型。

f. simswap_256：256×256分辨率，运用相似性交换算法，在保持原面部动作、表情相似性上有优势，适合处理动态视频换脸，让换脸后的人物表情、动作与原视频适配度更高。

g. simswap_unofficial_512：512×512高分辨率，在simswap基础上提升画质，能处理对清晰度要求高的内容，比如专业影视片段换脸，让面部细节更丰富，换脸效果更逼真。

h. uniface_256：256×256分辨率，注重面部统一融合效果，在多人脸换脸或面部特征差异大的换脸场景中，能更好协调面部与整体画面的融合，让换脸后的画面更自然统一。

以上模型如无特殊情况，使用模型模型即可。

cut-off

换脸像素分辨率：包含六种分辨率，分辨率越高，脸部保留的细节越多，但换脸时间也就越长。

如下图所示是采用128×128分辨率换脸效果。

如下图所示是采用512×512分辨率换脸效果。

（2）Face_enhancer

脸部增强器，前面说过，默认状态下，换脸后的图像一般很不清楚，解决方法来了，选择该选项就可以让换脸后的图像更清楚了。如下图所示。

选择人脸增强后，会显示两个参数，一个是人脸增强模型，一个是人脸增强混合，如下图所示。

人脸增强模型：这里提供了9个增强模型，默认使用的是gfpgan_1.4，如下图所示。

a. codeformer：专注修复人脸图像质量问题，像模糊、噪点、压缩伪影等情况，能恢复丢失面部特征，提升人脸清晰度与完整性。

b. gfpgan_1.2、gfpgan_1.3、gfpgan_1.4：属于 GFP-GAN 不同迭代版本，通过预训练 GAN 模型，修复老照片人脸或优化 AI 生成图像的面部，是换脸场合常用标配模型，版本越高通常算法优化越好、效果可能更优。

c. gpen_bfr_256、gpen_bfr_512、gpen_bfr_1024、gpen_bfr_2048：GPEN 面部增强网络的不同版本，数字代表支持的图像分辨率（如 256×256 像素等），用于提升人脸分辨率和图像清晰度，分辨率越高对硬件要求也越高，可按需选对应分辨率来增强人脸细节。

d. restoreformer_plus_plus：致力于用深度学习和复原转换技术，修复增强人像图像，尤其针对因压缩等导致失真的人脸图像效果较好。

模型多，很容易让人眼花缭乱，摸不着头脑，实际上，我们通常使用默认的模型即可。

cut-off

人脸增强混合：主要用于控制人脸增强效果的融合程度、强度等，一般情况下保持默认值80即可。

简单说，人脸增强模型是 “工具”，提供具体增强能力；人脸增强混合参数是 “调节器”，决定这些工具怎么配合、用多大力度，共同让换脸后的面部更好看、更自然。

（3）deep_swapper

深度换脸，主要针对直播实时换脸，基于神经网络，换脸细节更多更自然，但我感觉效果不怎么好。如下图所示，就是使用了深度换脸之后的效果，细节看起来多了，但是面部先得脏兮兮的，而且换脸后，长相发生很大的变化。

（4）age_modifier

年龄修改器：可以编辑人像年龄大小。此选项可以单独对目标图像进行修改，也可以对换脸后的图像进行修改。这里我只对目标图像进行年龄修改，如下图所示为减小年龄后的样子。

下图则是增大年龄后的样子。

（5）face_debugger

脸部调试器：face_debugger 是 Facefusion 的调试模式，作用和使用场景如下：

核心作用：开启遮罩调试，帮你在换脸时，根据目标图像 / 视频效果，调整参数让融合更好。

举例说明：

遮挡场景：处理 “面部被眼镜、手、帽子遮挡” 的素材（如人物戴墨镜的视频），开启 face_debugger，搭配 face - mask 里的 occlusion 遮罩类型，能精准识别遮挡区域，让换脸时避开遮挡、融合更自然，调试时看预览效果，调整遮罩参数。

效果优化：做高精度换脸（如电影级角色替换），开启后可通过 face_debugger_items 里的 bounding - box（看人脸边界准不准）、landmark - 68（检查五官关键点定位细不细），发现问题就调模型 / 参数，让换脸更逼真。

【注意】正式执行换脸前，要关闭 face_debugger，否则可能让人脸出现曲线遮挡等异常，影响最终效果。简单说，就是换脸遇到复杂情况（遮挡、追求高精度）时，用它调试优化，调好就关～

当选择面部调试选项后，下面会列出面部调试的选项，默认状态下，选择的是，face_landmark-5/68和face-mask选项，如下图所示。

此时右侧的换脸结果显示如下图所示。

外侧的绿色线框是是face-mask（面部遮罩），内部的五个绿点就是face-landmark-5/58标注的关键点。在使用面部调试时，先从人脸调试项目选择相应的选项，然后在右侧修改参数，例如，选择人脸蒙版类型为occlusion（阻挡），如下图所示。

此时，换脸结果处显示的绿色矩形框会变成如下图所示的形状。

在脸部调试时，我们可以修改下面的参数，如下图所示。

参数修改后，换脸结果处相应的标志和标记也会随之变化，如下图所示。

这就是脸部调试选项的作用，也就是说，如果在换脸时，遇到换脸出现问题，可以激活脸部调试对换脸进行调试，调试结束后，关闭脸部调试选项。所以，这个脸部调试可以看做是一个辅助换脸工具。

对于这些人脸调试项目的作用及场景我概述如下：

bounding-box（人脸边界框）：

作用：定位人脸在画面里的矩形范围，标记人脸所处位置和大小。

场景：比如视频换脸时，先快速框出人脸区域，方便后续处理；或者检测画面中有无人脸，像安防监控里初步筛选含有人脸的画面片段。

选择该选项后，换脸结果显示处会显示一个红色矩形框，如下图所示。

face-landmark-5（5 个人脸关键点）：

作用：识别人脸 5 个关键点位，一般是双眼中心、鼻尖、左右嘴角，做基础人脸特征定位。

场景：简单人脸对齐场景，如简易美颜 APP 里，快速根据 5 个点调整人脸基础位置，适配滤镜模板；或者人脸快速检测场景，辅助判断人脸朝向等基础信息。

选择该选项会用5个红点基础关键点标记左右眼睛、鼻尖以及左右嘴角位置，如下图所示。

face-landmark-5/68（5 和 68 个人脸关键点）：

作用：同时识别 5 个基础关键点和 68 个更细致关键点，兼顾快速定位与精细特征捕捉。

场景：换脸精度要求适中的场景，既想快速完成初步对齐，又需要一定细节（如面部轮廓大致精细度）来优化效果，像短视频平台的换脸特效，平衡处理速度和效果。

face-landmark-68（68 个人脸关键点）：

作用：识别 68 个细致人脸关键点，涵盖面部轮廓、五官精细位置（如眼睫毛、眼角、嘴唇轮廓等），精准刻画人脸特征。

场景：对换脸细节要求高的场景，比如电影级换脸、高精度人脸美颜（要精细调整五官形状、位置）；艺术创作中精准操控人脸表情、形态，像数字人制作时，依据 68 个点塑造逼真面部神态。

选择该选项会在面部显示68个绿色点，如下图所示。

face-landmark-68/5（68 和 5 个人脸关键点）：

作用：同时识别 68 个精细点和 5 个基础点，适配不同精度需求，可灵活切换或结合使用。

场景：处理复杂人脸素材库，既有需要快速筛选的低精度场景（用 5 个点），又有深度加工的高精度场景（用 68 个点）；或者调试换脸算法时，对比不同关键点数量对效果的影响。

选择该选项后，会在面部显示68个青色的点，如下图所示。

face-mask（人脸遮罩）：

作用：检测、生成人脸遮罩，可标记人脸区域，也能用于处理人脸与背景融合、添加特效限制范围。

场景：换脸时让新脸与原背景自然融合，遮罩界定人脸范围，避免特效影响背景；制作人脸特效（如虚拟面具），限定特效仅作用在人脸区域；还能处理戴口罩场景，精准识别口罩覆盖部分与人脸的关系。

默认状态下，人脸遮罩使用的是box盒子（矩形），如下图所示。

换脸结果显示如下图所示。

如果选择occlusion阻挡选项，如下图所示。

则换脸结果处显示的遮罩形状就不是规则的举行，而是围绕脸部变化的曲线了，如下图所示。

face-detector-score（人脸检测置信度）：

作用：评估人脸检测结果的可信度、精准度，数值越高，检测出的人脸越可靠。

场景：大规模人脸数据筛选，过滤检测置信度低的无效人脸（如模糊、误识别的），像人脸数据库构建时，保证入库数据质量；自动换脸流程里，优先处理高置信度人脸，提升整体效果稳定性。

选择该选项会在换脸面部显示置信度参数，如下图显示的是0.8，这表示检测处的人脸可靠性较高。

face-landmarker-score（人脸关键点识别置信度）：

作用：评估人脸关键点识别结果的可靠性，判断关键点定位准不准。

场景：高精度换脸、人脸重建等对关键点精度要求高的场景，比如医学模拟人脸手术效果，需高置信度关键点确保模拟准确；艺术创作中精细调整人脸，依据分数判断关键点数据能不能用。

选择该选项后，换脸结果显示绿色的数字表示置信度参数，如下图所示。

age（年龄预测）：

作用：基于人脸特征预测年龄信息。

场景：影视创作中，根据角色年龄需求，筛选适配人脸素材（如找 “看起来 20 - 30 岁” 的人脸换脸）；用户画像分析，结合人脸年龄数据做统计（如 APP 分析用户年龄分布）；特效制作，给人脸添加符合年龄变化的特效（如模拟变老、变年轻）。

选择该选项后，换脸结果处显示红色数字表示年龄，如下图所示。

gender（性别识别）：

作用：识别人脸对应的性别类别（男、女等）。

场景：性别特定的换脸、美颜需求，比如给男性、女性分别设计不同风格特效（男性硬朗风格、女性柔美风格）；数据分类统计，像统计平台用户性别占比，辅助内容推荐；影视角色替换，快速筛选同性别人脸素材换脸。

选择该选项后，换脸结果显示处会显示性别提示，如下图所示。

race（种族识别）：

作用：识别人脸所属种族（如亚洲、欧洲、非洲等）。

场景：跨种族人脸研究、创作，比如模拟不同种族人脸特征融合；文化相关艺术创作，精准呈现特定种族面部风格；还有一些涉及种族特征分析的学术、应用场景，辅助做数据分类处理。

选择该选项后，换脸结果显示处会以红色文字显示种族提示，例如，白人显示为“white”，如下图所示。

(6)expression_restorer

表情恢复器：主要针对视频换脸，主要作用是修复、还原或优化换脸后人物的面部表情，让换脸结果在表情呈现上更自然、更贴合原始素材的情绪氛围，避免因换脸流程导致表情僵硬、失真、不协调等问题。简单说，它是给换脸后的表情 “做微调医美”，让表情从 “凑合能看” 变 “自然丝滑”，尤其对追求极致换脸效果的场景（比如影视级换脸、逼真短视频创作），是个很实用的细节优化开关。

选择该选项后，下面会显示表情恢复的参数，如下图所示。

举个具体场景理解：假设你用一段 “人物开心大笑” 的视频做换脸，把 A 的脸换到视频里人物 B 脸上：

若没开 expression_restorer ，换脸后可能出现表情断层：比如人物本该大笑时，脸部肌肉牵拉、嘴角上扬幅度，和原始 B 的表情动态不匹配，看起来 “笑容很假”“脸部僵住”，甚至像 “皮笑肉不笑” 。

开启 expression_restorer 后，它会分析原始素材里的表情运动规律（比如面部肌肉走向、嘴角 / 眼部的动态变化），然后调整换脸后的面部表情细节，让 A 的脸能自然复刻 “大笑” 的神态，让换脸结果从表情上更难看出破绽，和原素材情绪、动态更贴合。

（7）face_editor

人脸编辑器，这是一个非常棒的功能，可以对目标人像单独调整，也可以对换脸后的图像调整，有了这个功能，我们可以对照片或视频中的人脸及无关进行调整，例如抬头和低头、矫正歪头、转头等，非常有趣，也非常有用。

选择该选项后，下面列出了面部编辑器的众多参数，如下图所示。

这些参数很容易理解，只要调整某个参数，右侧上方就会显示调整的结果，如下图是原图（目标图像）。

下图是抬头和低头效果。

下图是左右歪头效果。

下图是左右转头效果。

其他的面部编辑参数请你自行尝试，非常有趣，也非常有用的。

（8）frame_colorizer

帧着色器：这个是针对整个画面，而不是单独针对人脸的上色，它能为照片、视频上色，给黑白素材或想改变色调的内容重新着色。比如给老电影黑白片段换脸后，用它上色成彩色，还原复古色彩风格。

选择该选项后，下方显示它的参数，如下图所示。

下图是使用该功能对黑白人像照片上色的效果。

下图则是对黑白风景照片上色的效果。

帧上色模型包含DDColor和DeOldify两大类，如下图所示。

它们各自的优缺点参考下面：

DDColor

优点：

色彩准确性高：采用双解码器技术，能同时考虑色彩分布和像素级详细信息，可准确识别图像中的物体和场景，为其添加逼真颜色，减少颜色错误涂抹问题，实现高度真实的图像上色效果。无论是给历史黑白照片上色，还是为动漫或游戏中的风景进行真实风格的上色，都有出色表现。

细节处理好：利用多尺度图像特征学习颜色查询，能减轻颜色溢出，并显著改善小物体的着色，使图像细节处的色彩过渡自然，不会出现色彩断层或不自然的边界。

色彩丰富度高：引入了色彩损失函数，进一步提高生成结果的色彩丰富度，让上色后的图像色彩更加鲜艳、生动，接近真实世界的色彩表现。

缺点：

相对来说，可能对复杂场景中一些特殊光影效果或艺术化的色彩需求处理不够灵活，更侧重于写实风格的色彩还原，如果想要实现一些独特的艺术化色彩风格，可能不如专门的艺术化模型表现出色。

DeOldify

优点：

修复功能强大：不仅能为黑白或褪色的图像上色，还能在一定程度上修复图像的损坏部分，对于有破损、划痕等问题的老照片或视频片段，能在恢复色彩的同时进行修复，提升图像质量。

艺术化效果好：提供多种模型，如艺术模型可满足追求高图像质量、丰富色彩和细节的用户需求，能生成具有独特艺术风格的色彩效果，适合对图像有艺术化处理需求的场景；稳定模型在风景和肖像处理上表现佳，输出稳定；视频模型专为视频处理设计，能提供流畅且无闪烁的视频上色体验。

皮肤渲染自然：在皮肤渲染方面有显著进步，减少了僵尸般的效果，使人物肤色看起来更加自然，对于人像照片或视频的上色处理有优势。

缺点

虽然 DeOldify 在不断优化，但在某些复杂场景下，可能上色的准确性不如 DDColor，例如对于一些具有特殊光影条件或罕见色彩组合的场景，可能无法准确还原出符合现实逻辑的颜色。而且不同模型适用于不同场景，需要用户根据具体需求进行选择，这对用户的操作经验和对模型的了解程度有一定要求。

着色模型带artistic（艺术）主要侧重对非写实类图像着色。 ddcolor_artistic：在 ddcolor 基础上，融入艺术化色彩倾向，为画面增添油画、复古等艺术风格色彩；deoldify_artistic：侧重以艺术化方式给老旧内容上色，强化复古、创意色彩表现，让黑白画面呈现独特艺术氛围。

帧上色大小包含四个尺寸，如下图所示。

小尺寸（如 256×256 ）：处理速度快、占用电脑资源（显存 / 内存）少，适合配置一般设备或对细节要求不高、追求快速出结果的场景，但可能损失画面细节，让上色效果粗糙。

大尺寸（如 512×512 ）：能捕捉更多画面细节，上色后色彩过渡、纹理还原更细腻，适合高性能设备处理对细节要求高的内容（如老电影修复），但会增加资源消耗、延长处理时间。

帧上色混合：控制上色程度大小，数值高，新上色效果突出，原始信息残留少，适合想彻底覆盖旧色彩的场景；数值低，保留更多原始质感（如灰度），让上色过渡自然，适合追求柔和融合效果的场景，用于调节新旧色彩在最终画面里的呈现比例。

（9） frame_enhancer

帧增强器：主要针对整个画面，而不是单独针对人脸的增强，提升转换后视频整体清晰度，优化画面质量。换脸后的视频画面模糊，开启它可让整个视频画面更清晰锐利。

选择该选项后，下面显示帧增强模型和帧增强混合参数，如下图所示。

帧增强模型包含17个，如下图所示。

对于这些模型的特点和作用，我大体叙述如下：

（一）RealESRGAN系列（以RealESRGAN为基础的衍生模型）

real_esrgan_x2 / real_esrgan_x2_fp16

特点：主打 2倍超分辨率，用较小计算成本实现基础画质提升。`fp16` 版本是半精度计算优化，能在保持效果的同时，加快处理速度、降低显存占用，适合对分辨率要求没那么极致，但想快速提升清晰度的场景（比如短视频片段、低清素材初步修复）。

real_esrgan_x4 / real_esrgan_x4_fp16

特点：4倍超分辨率是核心，在画质提升幅度和计算效率间找平衡。对低分辨率视频帧（如老旧监控、低清动画），能有效增强细节、锐化边缘，让画面更清晰。`fp16` 版本同样是加速优化，适合中端配置设备处理常规视频增强需求。

real_esrgan_x8 / real_esrgan_x8_fp16

特点：8倍超分辨率，追求极致细节还原，但对硬件要求高（需要更强算力、显存）。适合处理极低成本素材（如早期手机拍摄的模糊低清视频），能最大程度挖掘画面细节，但处理速度慢、资源消耗大，更适合追求画质极限的场景（如老电影修复、珍贵影像抢救）。

（二）其他特色增强模型

clear_reality_x4

特点：侧重 “真实感还原” ，在超分辨率同时，会优化色彩自然度、抑制过度锐化。适合处理风景、写实类视频帧，让增强后的画面既清晰又贴近真实视觉（比如旅行vlog修复，避免画面过锐显得假）。

lsdir_x4

特点：可能偏向 “轻量快速” ，针对小尺寸、低复杂度画面优化。适合批量处理简单素材（如表情包、小尺寸短视频），用较低资源消耗快速提升清晰度，主打一个“高效简洁”。

nomos8k_sc_x4

特点：对 8K及超高清适配性强，处理高分辨率原始素材时，能精准增强细节、保持画面一致性。适合专业影视后期、高端视频创作，给8K拍摄的素材做精细画质优化，避免放大后细节崩坏。

real_hatgan_x4

特点：结合 GAN（生成对抗网络）技术，在增强分辨率同时，强化画面“真实纹理生成”。对人脸、物体纹理修复效果突出（比如老照片人脸修复），让增强后的细节更自然、有真实质感，不像传统算法容易“假糊”。

real_web_photo_x4

特点：针对网络照片/网页视频优化，这类素材常因压缩、传输损失画质。模型会重点修复色块、模糊、压缩噪声，让从网页/社交平台下载的低质素材（如截图、转发多次的视频）恢复清晰度，适配二次创作场景。

realistic_rescaler_x4

特点：强调 “写实风格缩放” ，超分辨率时严格遵循真实物理规律（光影、纹理比例）。适合建筑、工业类视频帧处理（如工程监控、建筑设计视频），保证增强后画面比例、细节符合现实逻辑，不出現艺术化失真。

remacri_x4

特点：可能偏向 “艺术化增强” ，在提升清晰度同时，给画面加轻微艺术滤镜（如胶片感、复古色调）。适合想让视频帧有独特风格的创作（如复古风短视频、艺术短片），增强画质+风格化一步到位。

siaux_x4

特点：主打 “智能细节补全” ，对画面缺失细节（如老照片划痕、低清画面模糊轮廓），能通过算法“脑补”合理内容。适合破损素材修复（如带划痕的老影像），在提升清晰度同时修复画面瑕疵。

span_kendata_x4

特点：对人物/肖像优化有侧重，超分辨率时强化皮肤纹理、五官细节，让人脸更清晰自然。适合短视频换脸、人物vlog处理，让增强后的人物面部细节更真实（比如美妆、颜值类视频修复）。

swin2_sr_x4

特点：基于 Swin Transformer架构，擅长捕捉长距离画面依赖关系（比如复杂场景中不同物体关联）。对大场景、多元素视频帧（如电影场景、城市全景），能更精准增强细节、还原整体氛围，适合专业影视级画质提升。

ultra_sharp_x4

特点：极端追求 “锐利清晰” ，超分辨率时最大化锐化边缘、强化细节。适合需要强视觉冲击力的场景（如游戏CG、广告片），让画面线条硬朗、细节突出，但要注意过度锐化可能导致画面“假”“生硬”，需配合其他参数调整。

追求“效率优先” → 选带 `fp16` 后缀（加速）、`x2`/`x4` 小倍数模型（如 `real_esrgan_x2_fp16` ）；追求“极致画质” → 选 `x8` 大倍数、`swin2_sr_x4` 这类架构复杂的模型；针对“特定场景”（人脸、风景、8K ）→ 对应专项优化模型（`span_kendata_x4` 、`nomos8k_sc_x4` ）。

简单说，每个模型都是在 “分辨率提升幅度”“计算效率”“场景适配性” 三者间做取舍，根据素材质量、设备性能、创作需求选就行~

（10）lip_syncer

嘴唇同步器：也就是对口型功能，用音频驱动视频中人物嘴型，让嘴型与音频匹配。比如给换脸后的人物配音，开启它可让人物嘴型随配音自然变动，像制作虚拟主播说话视频。

选择lip_syncer（嘴唇同步器）后，下方显示它的参数，如下图所示。

唇形同步模型包含两个，如下图所示。

wav2lip_96：基础唇形同步模型，通过提取嘴形、音频特征并计算相似度，实现唇形与音频匹配，重点保障唇形同步精度，专注让唇部动作严格贴合声音节奏。

wav2lip_gan_96：引入生成对抗网络（GAN），在同步唇形基础上，增加对 “视觉质量” 的优化，通过生成器和判别器对抗，让结果更自然、细节更丰富。

唇形同步要求一段音频和与音频时长对应的人像视频。

视频换脸和唇形同步设置完参数之后，都要点击一下下方的“开始”按钮。

注意：UI工作流程下拉列表中要选择instant_runner，此时下方的“应用”按钮变成“开始/停止”按钮，并多了一个“清除”按钮，如下图所示。

四、运行模式

运行模式包括三种，如果你的电脑不是英伟达显卡，则只能选择CPU模式，如果是英伟达显卡且安装了cuda或tensorrt，则可以选择之，可以加速渲染速度。

具体而言，cuda的特点如下：

依赖与优势：依托 NVIDIA 显卡的 CUDA 技术，能调用 GPU 算力加速。适合有 N 卡（NVIDIA 显卡）的设备，大幅提升人脸处理速度，像视频换脸时，利用 GPU 并行计算，快速处理每一帧画面。

适用场景：对硬件有一定要求，需 N 卡且装好对应 CUDA 工具包，适合追求高效处理、电脑配置（有适配 N 卡）较好，处理大规模人脸数据（如长视频换脸、批量换脸任务）的场景。

tensorrt的特点如下：

依赖与优势：是 NVIDIA 的高性能推理优化器，需适配的 GPU 硬件（通常 N 卡）。能进一步优化模型推理，在 cuda 基础上，通过模型优化、精度调整等，降低延迟、提高吞吐量，让人脸处理更高效，比如复杂人脸融合任务，能更快出结果。

适用场景：要求硬件支持（适配 TensorRT 的 N 卡等）、软件环境配置对应库，适合对处理速度极致追求，且有专业硬件基础（如 AI 开发、高性能计算场景），处理高复杂度人脸操作（如超高清视频换脸、多模型融合换脸）的情况。

cpu的特点如下：

依赖与优势：依靠计算机 CPU 运算，无需特殊显卡，兼容性强，任何电脑基本都能用。不过受限于 CPU 本身运算能力，处理速度相对慢，尤其大数据量时更明显，但胜在普适性，低配置 “渣机” 也能运行基础人脸处理任务。

适用场景：无特殊硬件要求，适合电脑无独立显卡（或显卡不满足 cuda/tensorrt 条件）、处理简单人脸任务（如单张图片换脸、低分辨率短视频换脸），或临时应急使用，不追求极致速度的场景。

执行线程数：可简单理解为程序同时 “动手干活” 的 “工人数量” 。比如设为 4，就是同时有 4 个线程（可看作 4 个 “工人” ）并行处理任务，像对人脸图像的不同区域、不同视频帧，分配给不同线程运算，利用多线程并行提升处理速度。

但线程数不是越多越好，受 CPU 核心数、任务类型（CPU 密集型 / IO 密集型）限制，太多线程会因切换频繁、资源竞争，反而拖慢整体速度。

**CPU 密集型任务（如人脸模型推理计算）**若电脑是多核 CPU，线程数建议接近或不超过 CPU 核心数（比如 4 核 CPU，设 3 - 4 ）。因这类任务主要靠 CPU 运算，线程多了切换成本高，会降低效率。像 FaceFusion 对高清人脸图像深度处理时，线程数匹配 CPU 核心，能让运算资源充分利用又不浪费。

IO 密集型任务（如加载人脸素材、读写临时文件） 线程数可适当调高（比如 8 - 12 ，甚至更多，依实际测试）。因为任务多数时间在等 IO（像等文件读取），CPU 空闲，多开线程能在等待时让 CPU 处理其他任务，提升整体吞吐量。比如批量换脸时加载大量人脸图片素材，多线程并行加载可减少等待时间。

执行队列数：是等待执行任务的 “排队区容量” 。当任务产生速度快于线程处理速度，没被立即处理的任务会进入队列排队，设为 1 就是队列最多缓存 1 个待处理任务（超过可能触发拒绝策略或影响程序稳定性）。它用于协调任务生产和消费节奏，避免任务 “拥堵” 导致内存溢出等问题。

任务量稳定、少波动场景：队列数设小些（如 1 - 3 ）。若任务生产和处理速度匹配好，队列只是临时 “缓冲”，小队列可避免内存存太多待处理任务，减轻内存压力。比如日常单视频换脸，任务数少且稳定，队列数 1 或 2 就够。

任务突发、生产快场景：适当增大队列数（如 5 - 10 ，需结合内存情况）。当短时间有大量换脸任务（像批量处理几十条短视频），队列能暂存任务，等线程有空再处理，避免任务直接被拒绝。但要注意监控内存，队列太满存大量任务，可能引发内存溢出，导致程序崩溃。

简单说，使用时要结合自身硬件（CPU 核心数、内存大小）和实际任务类型（人脸处理是算得多还是等得多），先小范围调整线程数和队列数，测试程序处理速度、资源占用（任务管理器看 CPU、内存），找到既高效又稳定的组合，让 FaceFusion 换脸又快又稳。

五、模型下载方式

在 FaceFusion（以及很多涉及模型加载、使用的 AI 应用场景里）中，“github” 和 “huggingface” 这两种模型下载方式，作用是为程序提供获取人脸相关模型文件（比如用于换脸的算法模型、权重参数等）的不同来源渠道。

若你想深度定制模型（比如改 FaceFusion 里模型的推理逻辑）、追踪模型版本更新（开发者频繁提交代码变动时，能通过 Git 拉取最新版），选 GitHub 下载更方便，能获取完整项目上下文，辅助调试、优化。

如果你是快速想用模型跑通 FaceFusion 流程，不想折腾代码仓库细节，选 Hugging Face 更省心，直接调库下载即用；而且想对比不同模型效果（平台上模型多、评价全），或用社区热门的 “开箱即用” 模型，它是高效渠道。

简单说，两种方式给你选 “从哪拿模型” 的自由：想折腾代码、深度开发，用 GitHub；想快速用、依赖社区成熟模型，选 Hugging Face 。FaceFusion 里同时勾选，程序会按逻辑（可能优先 / 同时从两个渠道找）去拉取模型，保证能拿到文件，也让你灵活应对不同网络环境（比如有时 GitHub 访问慢，Hugging Face 能兜底）。

六、视频内存策略和限制

在 FaceFusion 这类视频处理（尤其是涉及人脸融合等 AI 操作）的工具里，视频内存策略用于控制程序处理视频时如何分配、使用计算机内存，影响视频处理的流畅度、稳定性，以及对硬件资源的占用效率。

简单说，就是平衡 “视频处理质量 / 速度” 和 “内存占用” 。视频处理（比如人脸替换、帧渲染）很吃内存，尤其高清、长视频，内存不够易卡顿、崩溃。内存策略决定程序在 “用尽量少的内存保证处理效果” 和 “多占用内存提升速度 / 质量” 之间怎么选，让工具适配不同硬件（低配电脑少卡、高配电脑高效利用）。

strict（严格策略）

特点：对内存使用限制最严格，尽可能少占内存。程序会精细管控内存分配，比如严格限制缓存的视频帧数量、压缩临时数据，甚至牺牲一点处理速度，优先保证内存不超阈值，避免因内存不足导致程序崩溃。

用途：适合低配电脑（内存小，比如 8G/16G ），或处理短、低分辨率视频时用。比如旧笔记本内存只有 8G，处理短视频换脸，选 strict 能降低内存爆掉的风险，代价可能是处理时间稍长（因为要频繁 “省内存” ）。

moderate（适中策略）

特点：内存控制和处理效率找平衡。既不会像 strict 那样极端压缩内存，也不会无节制占用。会合理缓存必要的视频数据、中间结果，保证处理速度的同时，让内存占用维持在多数电脑（比如 16G/32G 内存）能承受的范围。

用途：日常通用场景首选，大部分电脑（内存不算特别小 / 特别大）、处理普通长度 / 分辨率视频（如 1080P 短视频）时，选 moderate 既能保证处理流畅（速度还不错），又不容易因内存占用太高触发系统预警、卡顿。

tolerant（宽松策略）

特点：优先保证处理速度、质量，对内存占用限制宽松。程序会大胆缓存视频帧、中间模型结果，甚至尽可能多开并行任务，充分利用大内存优势加速处理。但内存占用会更高，对硬件要求也高。

用途：适合高配电脑（内存大，比如 32G 及以上），处理长视频、高分辨率（4K 等）视频。比如用 64G 内存的工作站做电影级人脸替换，选 tolerant 能让 GPU/CPU 少等 “内存搬运数据”，更快完成复杂计算，代价是内存会被大量占用（但高配电脑扛得住）。

综上所述，到底怎么用这三个选项可以参考下面的总结：

看硬件：内存小（≤16G ）选 strict；内存中等（16G - 32G ）选 moderate；内存大（≥32G ）、追求速度选 tolerant。

看任务：处理短、小视频，strict/moderate 足够；处理长、高清、复杂视频（要快），用 tolerant 更爽。

实际测试：同一视频、同一模型，换不同策略跑一遍，看电脑内存占用（任务管理器看）、处理时间、是否卡顿崩溃，找到自己硬件 + 任务下最稳的组合～

简单说，这三策略就是给你 “用内存换速度 / 质量” 的选择，根据电脑配置和处理需求挑，让 FaceFusion 不崩、跑得顺～

再看系统内存限制，如下图所示。

系统内存限制：就是防止程序 “吃内存吃到撑爆系统” 。视频处理（尤其是高清、长视频，叠加人脸模型运算）非常消耗内存，一旦程序无节制占用内存，可能导致：电脑整体卡顿（其他程序被挤没内存跑）；触发系统 “内存不足” 警告，甚至直接崩溃；极端情况损坏硬件（虽概率低，但持续高内存压力对设备有影响）。通过设置 “系统内存限制”，你能主动给 FaceFusion 划一道 “内存红线”，让它在处理视频（人脸融合）时，不管任务多复杂，最多只用这么多内存，保障电脑整体稳定。

比如你电脑总内存是 16G，日常还要开浏览器、办公软件。如果给 FaceFusion 设 “系统内存限制 = 8G”，那么不管处理多夸张的视频，它最多用 8G 内存，剩下的 8G 留给系统和其他程序，避免电脑因内存被占满而死机、强制重启。

我再说具体点， 低配电脑（总内存小，如 8G ）可以把限制调低（比如设 2G - 4G ），保证 FaceFusion 能跑起来，同时给系统留喘气空间（不然开个软件直接内存爆炸）。代价是处理速度可能变慢（内存不够，程序得频繁 “挤内存、换数据” ），但至少能完成任务。 高配电脑（总内存大，如 32G/64G ）：可以适当调高限制（比如设 16G - 24G ），让 FaceFusion 充分利用大内存加速处理（缓存更多视频帧、模型数据，减少等待时间），兼顾速度和稳定性。

注意： “视频内存策略”（strict/moderate/tolerant ），它和 “系统内存限制” 是配合工作的： “视频内存策略” 是程序内部的内存分配逻辑（比如 strict 更抠内存，tolerant 更放开）； “系统内存限制” 是给程序套的 “外部枷锁” ，不管内部策略多激进，总内存 usage 不能超过你设的限制。举个栗子：

你选了 “tolerant（宽松）” 视频策略（程序想多占内存加速），但设了 “系统内存限制 = 4G”，那 FaceFusion 再怎么 “放飞自我”，最多也只能用 4G 内存，避免把系统搞崩～

那么实际中怎么调呢？

先看总内存：比如总内存 16G，想留 4G 给系统，就设 “≤12G”；总内存 8G，设 “≤4G” 更稳。

测试任务：处理同一个视频，从低到高调限制，看：内存占用是否触发警告 / 崩溃；处理速度是否能接受（内存给太少，速度会巨慢）。

日常使用：找到 “能稳定跑完任务，又不影响电脑其他操作” 的阈值，固定下来就好～

七、源文件和目标文件

当目标文件为视频文件时，界面左侧会增加与视频相关的选项，如下图所示。

临时帧格式：设置处理过程中，视频临时存储的图像格式，默认是PNG格式，还可以设置其他的格式，如下图所示。

bmp：无压缩，画质真，文件大，保留完整像素信息，常见于 Windows 。

jpeg：有损压缩，高压缩比，文件小，适合照片分享，会损失部分细节。

png：无损压缩，支持透明，画质好，网页等场景常用，文件比 bmp 小。

tiff：无损 / 有损可选，画质优，文件大，多用于专业图像存储、印刷。

输出音频编码器：决定输出音频采用的编码算法，影响音频压缩、质量和兼容性，默认是flac编码，还可以设置其他的编码，如下图所示。

flac：无损压缩，音质无损，文件相对大，保留完整音频信息。

aac：有损压缩，高效编码，音质较好，常用于流媒体。

libmp3lame：即 MP3 编码，有损，压缩比高，兼容性极强，普及度高。

libopus：有损，低延时，适合实时通讯，音质与效率兼顾。

libvorbis：有损，开源，高音质，在压缩效率上有优势。

pcm_s16le：无压缩，音质原始精准，文件大，常用于专业音频编辑。

pcm_s32le：无压缩，高精度采样，音质更优，文件体积更大。

输出视频编码器：选择将视频原始数据编码为最终视频文件的编码工具，输出视频编码器包含如下图所示。

libx264：H.264 编码，兼容性强、画质好，编码速度与质量平衡，应用广泛。

libx265：H.265 编码，高效压缩，同等画质体积更小，需设备解码支持。

libvpx - vp9：VP9 编码，开源高效，适合网络视频，压缩优于 H.264，编码稍慢。

h264_amf：AMD 显卡加速的 H.264 编码，利用 AMD 硬件，加快编码，适合 AMD 用户。

h264_nvenc：NVIDIA 显卡加速的 H.264 编码，借 NVIDIA GPU，编码快，适配 N 卡。

hevc_nvenc：NVIDIA 加速的 H.265 编码，依托 N 卡硬件，高效编码 H.265 格式。

h264_qsv：Intel Quick Sync Video 加速的 H.264 编码，用 Intel 核显，编码高效。

hevc_amf：AMD 加速的 H.265 编码，借助 AMD 硬件，实现 H.265 快速编码。

hevc_qsv：Intel 加速的 H.265 编码，依托 Intel 核显，加速 H.265 编码流程。

rawvideo：无压缩，保留原始视频数据，画质无损但文件极大，少用于最终输出。

输出视频预设：是编码器内置的一组参数组合，影响编码速度和输出视频质量、体积，如下图所示。

ultrafast：极速编码，画质损失大，赶时间出片选它。

superfast：编码快，画质一般，追求速度可尝试。

veryfast：速度较快，画质尚可，日常常用的平衡选项。

faster：编码速度不错，画质比 veryfast 好点，折中选择。

fast：速度与画质更平衡，编码稍慢，效果有提升。

medium：中速编码，画质较好，时间和质量的中间态。

slow：编码慢，画质优，细节保留多，适合精品需求。

slower：更慢编码，画质更细腻，对硬件和时间要求高。

veryslow：极慢编码，极致画质，追求完美且不计耗时用。

输出视频质量：控制视频输出的画质水平，数值越高理论画质越好。默认数值80，属于中高画质。

输出视频分辨率：设定输出视频的画面尺寸，长和宽的像素数量，分辨率高画面细节承载多、清晰，但文件体积大、编码处理量大；1080x1920 适合竖屏展示场景（如手机端短视频等），适配对应播放终端的显示需求。

输出视频帧率：决定视频每秒呈现的帧数，影响画面流畅度。30帧/秒是常见帧率，能保证基本流畅度，相比 24 帧更流畅，比 60 帧在编码压力、文件体积上小，平衡了流畅度和资源占用，适合一般视频创作输出，让动作、画面切换等呈现自然不卡顿。

注意：当目标文件为视频时，界面右侧也会显示一些与视频相关的选项。如下图所示。

预览帧：控制上面显示的帧画面，也就是让我们看到的画面。默认看到的是第一帧。

修剪帧：控制输出视频帧的范围，默认是全部输出。

注意：视频中的第一帧一般用0帧表示。

八、源文件和目标文件

源文件可以是图像和音频，目标文件可以是图像和视频。当图像换脸时，二者都导入图像，如下图所示。

当视频换脸时，源文件是人像图像，目标文件是视频，如下图所示。

当使用唇形同步时，则源文件是音频，目标文件是视频。如下图所示。

九、输出路径和输出

输出路径：指定输出的换脸图像或视频默认存放的位置，是位于facefusion目录下的output文件夹。

我们可以在facefusion目录下找到这个文件夹。如下图所示。

输出：该区域主要显示换脸视频或唇形同步视频，生成视频后，可以点击下方的播放按钮预览视频效果。如下图所示。

十、日志级别和终端

日志级别：控制用于调整终端显示消息的严重性，控制输出日志详细程度，包含四个日志级别，如下图所示。

error：仅显示严重错误，助快速定位关键故障。

warn：提示潜在风险，不影响运行但需留意。

info：输出常规流程信息，展现正常运行状态。

debug：记录详细调试内容，用于深度排查问题。

终端：是展示运行过程信息的交互窗口，如下图所示。

根据日志级别设置的不同，终端可以：

输出日志，像换脸进度、参数加载、错误提示，帮你了解工具运行状态；

显示报错，遇到换脸失败、依赖缺失等问题，能通过终端信息排查解决；

调试时，高级用户可借助终端输入命令、查看底层执行细节，优化换脸效果。

十一、UI工作流程

UI工作流程：包含三个选项，如下图所示。

instant_runner：快速执行模式，简化流程，追求 “即点即出” 的高效换脸，适合简单场景。视频换脸常用该选项，选择该选项后，界面变成如下图所示。

job_runner：按标准任务流程运行，一步步处理换脸作业，注重过程完整性。选择该选项后，界面变成如下图所示。

任务操作：提供不同指令，用于按需执行、重试单个或全部换脸任务，管控任务处理流程。包含四个任务操作，如下图所示，

job-run：执行单个指定换脸任务，启动单次作业流程。

job-run-all：批量运行所有待处理换脸任务，一次性执行队列。

job-retry：重试单个失败 / 中断的换脸任务，重新尝试执行。

job-retry-all：批量重试所有失败 / 中断任务，统一重新执行。

任务ID：用于精准标识、区分不同换脸任务的唯一标识，如下图所示。

任务ID的作用是：

执行任务时，指定具体要处理的任务，让操作精准对应到单个 / 特定任务；

任务运行中，通过 ID 追踪进度、状态（如是否完成、失败原因）；

任务结束后，依据 ID 查询结果、复盘流程，方便管理多任务场景下的复杂作业。

job_manager：带任务管理能力，可排队、监控多个换脸任务，适合批量或复杂场景。这也是默认的换脸工作流程，选择该选项后，界面变成如下图所示。

任务操作包含如下图所示的内容。

job-create：创建新换脸任务，初始化任务流程与基础配置。

job-submit：提交已创建任务，正式启动换脸处理流程。

job-delete：删除指定任务，清理无需保留的任务数据。

job-add-step：给任务添加新处理步骤，扩展流程内容。

job-remix-step：重新编排任务步骤顺序，调整流程逻辑。

job-insert-step：在任务指定位置插入步骤，灵活补全流程。

job-remove-step：移除任务中某步骤，简化或修正流程。

十二、预览

用于预览换脸或唇形同步，如果是视频换脸，则显示预览帧和修剪帧，这两个参数前面已讲过，如下图所示。

如果是图像换脸，则不会显示这两个参数，如下图所示。

十三、人脸选择器模式

人脸选择器模式控制人脸选择的不通过策略，包含三个选项，默认采用reference参考选项，如下图所示。

many：识别并选取画面中多张人脸，用于多脸换脸场景。有多少脸，就换「多少张」

one：只选单个人脸，聚焦单一目标，简化换脸对象。不管多少脸，只换「最明显的 1 张」

reference：依据参考图匹配选取人脸，精准定位特定面容。只换「和参考图最像的 1 张（或指定张）」，再说明白一点，就是我们可以用鼠标点击参考列表中要换的哪张脸，如下图所示，我在参考列表中点击了美女的脸，则美女的脸就被换掉了。

如下图所示，我点击了帅哥的脸，则帅哥的脸就被换掉了。

如下图所示，我点击了参考列表中间美女的脸，则三个美女的脸同时被换掉了，这是为什么？因为两边的美女和中间的美女长相几乎一样，facefusion认为三个人是一个人了，^_

十四、人脸选择器及其他

这些参数包括如下图所示。

这一部分内容比较多，我们分开来学习。

人脸选择器顺序是 Facefusion 中人脸选择后，对人脸应用或处理的顺序规则，包含八个选项，如下图所示。

每个选项的作用是：

left-right：按检测到的人脸，从左到右依次处理。

right-left：按检测到的人脸，从右到左依次处理。如下图所示，采用右-左方式后，则最右侧的人像被换脸。

top-bottom：按检测到的人脸，从上到下依次处理。

bottom-top：按检测到的人脸，从下到上依次处理。

small-large：按人脸检测尺寸，从小到大排序处理。

large-small：按人脸检测尺寸，从大到小排序处理。如下图所示，采用大-小方式后，图像中最大的头部是最左侧的男人，所以他的头像被换掉了。

best-worst：按人脸质量（清晰、完整度），从优到差处理。

worst-best：按人脸质量（清晰、完整度），从差到优处理。

2、人脸选择器性别

可以根据男女性别有针对性换脸。默认状态是none，也就是不分性别。

如下图所示，选择male男性后，则图像中的女性就不会被换脸，只有右侧的男性的脸被换掉了。

3、人脸选择器种族

按选择的种族进行换脸，例如，可以只替换图像中的亚洲人脸，也就是黄种人，种族包含六种，如下图所示。

none：无；无特定种族

white：白色人种；高加索人种

black：黑色人种；非洲人种

latino：拉丁裔（美洲裔拉丁人，涵盖多种族混合背景）

asian：亚洲人种；亚裔

indian：印度人种（也用于指代美洲印第安人，需结合场景，这里侧重南亚印度）

arabic：阿拉伯人种；阿拉伯裔

如下图所示，选择了黑种人换脸，则图像中只有黑种人脸被换掉。

说明：上图中，由于没有限制性别，所以，图像中不分男女，只要是黑种人都会被换脸。

4、人脸选择器年龄

可以限定年龄范围，从而只替换这个年龄段的人脸，如下图所示。年龄限定在0-14岁，则只有最前面孩子的脸被替换了。

注意：

（1）上面讲的四个人脸选择器是交集的关系，而不是并集关系，也就是说，换脸的人像要同时满足这四个条件，如果有的人脸选择器设置为none，则会忽略该条件。如下图所示。设定的条件是目标图像中按从左往右的顺序只对年龄在18-40岁的亚洲女性进行换脸。

（2）这些限定条件有时会判断失误，例如，有时会把女性判定为男性，把男性判定为女性，也有时候会误判年龄大小，如下图所示，我把年龄限定在50-100岁，则检测结果是目标图像中没有人超过50岁，这是不对的。根据前面孩子的年龄，我们可以大体推断右侧的两位老人的年龄应该超过50岁了。

如果把年龄限制在30-40，则检测出奶奶的年龄在这个范围，所以，这里的年龄限制只作为一个参数使用就行，没必要一定等同于多少岁。

5、人脸遮挡模型

在替换人脸时，经常会遇到人脸被遮挡的情况，例如，话筒遮挡了人脸，如下图所示。

手指遮挡了人脸，如下图所示。

甚至戴的口罩更严重地遮挡了人脸。

这些遮挡人脸的情况都会严重影响替换人脸效果，为了更好地解决人脸遮挡的问题，于是人脸遮挡模型就出现了。

这些是 Facefusion 中用于人脸遮挡处理的模型，作用是辅助识别、分割人脸区域与遮挡部分，包含三个模型。

xseg_1：基础版人脸遮挡分割模型，识别并处理人脸遮挡，初步区分人脸与遮挡物。

xseg_2：进阶版，在遮挡分割精度、复杂场景适配（如多遮挡）上优化，效果更细。

xseg_3：高阶版，对细微遮挡、复杂环境（如半透明遮挡）处理更精准，提升换脸融合度。

cut-off