[{"data":1,"prerenderedAt":411},["ShallowReactive",2],{"content-/zh/advanced-tutorial/video-workflow":3},{"id":4,"title":5,"body":6,"description":403,"extension":404,"meta":405,"navigation":406,"path":407,"seo":408,"stem":409,"__hash__":410},"content/zh/advanced-tutorial/video-workflow.md","精通 Wan2.2：视频生成的全新前沿",{"type":7,"value":8,"toc":389},"minimark",[9,13,29,32,37,40,115,117,121,132,158,160,164,172,177,214,218,221,264,266,270,320,322,326,366,368,372],[10,11,5],"h1",{"id":12},"精通-wan22视频生成的全新前沿",[14,15,16,20,21,24,25,28],"p",{},[17,18,19],"strong",{},"Wan2.2"," 是高保真视频合成技术的新一代成果，它采用大规模**扩散Transformer（DiT）",[17,22,23],{},"架构，专门针对时序一致性与电影级动态效果进行了优化。与图像领域的 Flux.2 类似，Wan2.2 依靠","流匹配（Flow Matching）**与 ",[17,26,27],{},"T5-XXL"," 文本编码器，将复杂提示词转化为流畅、高分辨率的视频。",[30,31],"hr",{},[33,34,36],"h2",{"id":35},"_1-核心配置与运行要求","1. 核心配置与运行要求",[14,38,39],{},"Wan2.2 属于“重量级”模型。想要在 ComfyUI 中流畅运行，你需要了解它的硬件需求。",[41,42,43,59],"table",{},[44,45,46],"thead",{},[47,48,49,53,56],"tr",{},[50,51,52],"th",{},"组件",[50,54,55],{},"最低配置（量化版）",[50,57,58],{},"推荐配置（完整版）",[60,61,62,76,89,102],"tbody",{},[47,63,64,70,73],{},[65,66,67],"td",{},[17,68,69],{},"显存",[65,71,72],{},"16GB（NF4/GGUF）",[65,74,75],{},"24GB–48GB（FP16/BF16）",[47,77,78,83,86],{},[65,79,80],{},[17,81,82],{},"系统内存",[65,84,85],{},"32GB",[65,87,88],{},"64GB 以上",[47,90,91,96,99],{},[65,92,93],{},[17,94,95],{},"存储空间",[65,97,98],{},"约 20GB（模型权重）",[65,100,101],{},"50GB 以上（含 VAE、T5）",[47,103,104,109,112],{},[65,105,106],{},[17,107,108],{},"分辨率",[65,110,111],{},"720p",[65,113,114],{},"1080p 及更高",[30,116],{},[33,118,120],{"id":119},"_2-wan22-架构逻辑","2. Wan2.2 架构逻辑",[14,122,123,124,127,128,131],{},"Wan2.2 基于 ",[17,125,126],{},"3D 因果 VAE"," 与 ",[17,129,130],{},"基于 T5 的 DiT"," 构建。",[133,134,135,142,152],"ul",{},[136,137,138,141],"li",{},[17,139,140],{},"T5-XXL 编码器","：与传统视频模型不同，Wan2.2 对提示词理解能力极强，能识别空间关系（左、右、后方）与复杂动作（边哭边跪）。",[136,143,144,147,148,151],{},[17,145,146],{},"3D-VAE","：该模型不仅在宽、高维度，还在",[17,149,150],{},"时间维度","上将视频编码为压缩隐空间。这让模型在去噪过程中能“同时看到”多帧画面。",[136,153,154,157],{},[17,155,156],{},"流匹配（Flow Matching）","：模型不再预测噪声，而是学习从噪声到视频的“生成路径”，从而实现更平滑的动态效果，减少抖动瑕疵。",[30,159],{},[33,161,163],{"id":162},"_3-comfyui-工作流组件","3. ComfyUI 工作流组件",[14,165,166,167,171],{},"要搭建可用的 Wan2.2  pipeline，你需要安装 ",[168,169,170],"code",{},"ComfyUI-WanVideo"," 封装节点或同类自定义节点。",[173,174,176],"h3",{"id":175},"a-模型加载器","A. 模型加载器",[178,179,180,194,204],"ol",{},[136,181,182,185,186,189,190,193],{},[17,183,184],{},"WanVideo Model Loader","：加载主模型 ",[168,187,188],{},".safetensors"," 权重。使用 Wan2.2 时务必选择正确版本（如 ",[168,191,192],{},"wan2.2_t2v_14b","）。",[136,195,196,199,200,203],{},[17,197,198],{},"T5-XXL Text Encoder","：通常为独立加载器。使用 ",[168,201,202],{},"fp8_e4m3fn"," 精度可大幅节省显存，且画质几乎无损。",[136,205,206,209,210,213],{},[17,207,208],{},"Wan Video VAE Loader","：将隐式视频解码为像素画面的关键组件，必须使用专用的 ",[168,211,212],{},"wan_vae.safetensors","。",[173,215,217],{"id":216},"b-采样策略","B. 采样策略",[14,219,220],{},"Wan2.2 采用专用调度逻辑。",[133,222,223,237,249,255],{},[136,224,225,228,229,232,233,236],{},[17,226,227],{},"采样器","：",[168,230,231],{},"UniPC"," 或 ",[168,234,235],{},"Euler"," 为标准选择",[136,238,239,228,242,232,245,248],{},[17,240,241],{},"调度器",[168,243,244],{},"Simple",[168,246,247],{},"Wan_Scheduler","（如有）",[136,250,251,254],{},[17,252,253],{},"步数","：高质量出图建议 30–50 步",[136,256,257,260,261],{},[17,258,259],{},"CFG / 引导系数","：与 Flux（低引导）不同，Wan2.2 最佳区间通常为 ",[168,262,263],{},"5.0–7.0",[30,265],{},[33,267,269],{"id":268},"_4-分步逻辑流程","4. 分步逻辑流程",[178,271,272,282,291,301,311],{},[136,273,274,277,278],{},[17,275,276],{},"提示词","：使用描述性、叙事性语言。\n",[279,280,281],"em",{},"示例：电影级广角镜头，一列未来列车在日落时分飞驰穿过霓虹沙漠，沙尘扬起，真实运动模糊，4K。",[136,283,284,287,288],{},[17,285,286],{},"空视频隐空间","：设置分辨率与帧数。\n",[279,289,290],{},"标准：1280×720，81 或 121 帧。",[136,292,293,296,297,300],{},[17,294,295],{},"条件编码","：将提示词连接到 ",[168,298,299],{},"Wan Video Text Encode"," 节点。",[136,302,303,306,307,310],{},[17,304,305],{},"采样","：运行 ",[168,308,309],{},"KSampler","。注意：视频生成远慢于图像生成，消费级显卡可能需要数分钟。",[136,312,313,316,317,213],{},[17,314,315],{},"VAE 解码","：这是最吃显存的步骤。如果出现“显存不足（OOM）”错误，使用",[17,318,319],{},"分块 VAE 解码（Tiled VAE Decoding）",[30,321],{},[33,323,325],{"id":324},"_5-电影级出图专业技巧","5. 电影级出图专业技巧",[133,327,328,338,356],{},[136,329,330,333,334,337],{},[17,331,332],{},"时序稳定性","：如果视频感觉“抖动”，提高 ",[168,335,336],{},"flow_shift"," 参数（标准值通常为 1.0）。",[136,339,340,343,344,347,348,351,352,355],{},[17,341,342],{},"动态控制","：Wan2.2 对运动关键词非常敏感。可用 ",[168,345,346],{},"slow motion","（慢镜头）、",[168,349,350],{},"fast-paced","（快节奏）、",[168,353,354],{},"dynamic camera","（动态镜头）控制画面“力度”。",[136,357,358,361,362,365],{},[17,359,360],{},"首帧优化技巧","：为提升连贯性，可使用图生视频（I2V）工作流，将 Flux.2 生成的高清图输入 Wan2.2 采样器的",[17,363,364],{},"初始隐空间","，并设置高去噪强度（0.9–1.0）。",[30,367],{},[33,369,371],{"id":370},"_6-常见问题排查","6. 常见问题排查",[373,374,375],"blockquote",{},[14,376,377,380,381,384,385,388],{},[17,378,379],{},"黑屏/静态帧","：通常是 VAE 不匹配或引导系数过高。尝试将引导值降到 4.5。\n",[17,382,383],{},"画面突然变形","：模型丢失主体信息。缩短帧数（如 41 帧），再用",[17,386,387],{},"视频超分/插帧工具","延长时长。",{"title":390,"searchDepth":391,"depth":391,"links":392},"",2,[393,394,395,400,401,402],{"id":35,"depth":391,"text":36},{"id":119,"depth":391,"text":120},{"id":162,"depth":391,"text":163,"children":396},[397,399],{"id":175,"depth":398,"text":176},3,{"id":216,"depth":398,"text":217},{"id":268,"depth":391,"text":269},{"id":324,"depth":391,"text":325},{"id":370,"depth":391,"text":371},"Wan2.2 是高保真视频合成技术的新一代成果，它采用大规模**扩散Transformer（DiT）架构，专门针对时序一致性与电影级动态效果进行了优化。与图像领域的 Flux.2 类似，Wan2.2 依靠流匹配（Flow Matching）**与 T5-XXL 文本编码器，将复杂提示词转化为流畅、高分辨率的视频。","md",{},true,"/zh/advanced-tutorial/video-workflow",{"title":5,"description":403},"zh/advanced-tutorial/video-workflow","sJAg_kAaZiazCRGY7Iyz6eH6BTK5-SK9IqBpnFL0xyI",1773986044745]