精通 ComfyUI LTX 2.3：高保真视频生成实用指南

如果你接触过开源视频生成领域，一定深有体会：串联三十多个节点，祈祷显存不会爆满，等待二十分钟渲染后，得到的视频却出现主体畸形、背景模糊崩坏的问题。

而 LTX-Video 架构的出现，尤其是最新的 LTX 2.3 版本，终于实现了指令遵循度、时序一致性与硬件需求的平衡。

这不是一篇泛泛而谈的概述，我们将在 ComfyUI 中搭建一套稳定实用的**文生视频（T2V）与图生视频（I2V）**工作流。读完本指南，你将清晰理解每个节点的作用、参数调整逻辑，以及如何避免显卡过载崩溃。

一、硬件与前置条件：真实运行要求

在开始搭建节点前，先明确本地运行 LTX 2.3 的必备条件。LTX 虽高效，但并非无硬件门槛。

必备配置

显卡：推荐 NVIDIA 显卡，显存至少 12GB。8GB 显存可通过极致优化、降低帧数勉强运行，12GB 以上（RTX 3060、4070 及更高型号）可获得流畅体验。
ComfyUI：更新至最新版本，切勿使用三个月前的旧版本。
ComfyUI Manager：建议安装该插件，用于快速获取缺失的自定义节点。
LTX 模型文件：将 LTX 2.3 核心 safetensors 文件放入 models/checkpoints 文件夹，若模型未内置 VAE，需单独下载对应 VAE 文件。

小技巧：系统虚拟内存至少设置为 32GB。ComfyUI 在权重从内存切换至显存时，过小的虚拟内存会引发看似显存不足的静默崩溃。

二、核心原理：LTX 2.3 的独特优势

如果你用过 AnimateDiff 或 Stable Video Diffusion（SVD），需要转变视频生成思路。

AnimateDiff 通过滑动上下文窗口强制保证时序一致性，SVD 依靠图像条件预测后续画面，而 LTX 2.3 是基于 DiT（扩散Transformer）架构的原生视频扩散模型。

对使用者而言，核心差异如下：

提示词逻辑完全不同：LTX 对动作、镜头运镜、时间节奏的理解远超旧模型，无需堆砌 (masterpiece, best quality, 8k) 等词汇，只需像导演一样描述画面。
分辨率严格适配：Transformer 模型针对特定分辨率与帧数训练，若强行使用 512×512 替代模型适配的 768×512，画面会严重崩坏。
CFG 系数极度敏感：LTX 的无分类器引导尺度比 SDXL 更苛刻，小幅提升就会导致画面过饱和、噪点过多。

三、LTX 2.3 工作流搭建：分步教程

从零搭建简洁的文生视频工作流，打开空白 ComfyUI 画布开始操作。

步骤1：加载基础模型

右键画布，选择 添加节点 > 加载器 > Load Checkpoint，选中 LTX 2.3 模型，该节点会输出 MODEL、CLIP、VAE。

注意：部分 LTX 适配包提供专属 LTX Model Loader 节点，通过 ComfyUI 安装后，建议使用专属加载器，确保 Transformer 模块正常解析。

步骤2：文本编码器（条件设置）

LTX 依赖高质量文本编码，添加两个 CLIP Text Encode (Prompt) 节点，均连接模型输出的 CLIP。

正向提示词（画面与运镜描述）：摒弃关键词堆砌，使用完整描述语句。示例：夜间赛博都市霓虹街道上，一辆未来感跑车行驶，电影级广角镜头，摄像机从右向左平移跟随车辆，照片级画质，湿润沥青路面带有反光效果。

反向提示词：简洁即可。 模糊、变形、畸形、结构错误、低分辨率、静止画面。

步骤3：潜变量配置（视频画布设置）

这是最易出错的环节，添加 Empty Latent Video 或 LTX 专属潜变量节点。

LTX 2.3 潜变量黄金规则：

分辨率：必须为 32 的倍数，测试首选 768×512 或 512×768，直接使用 1024×576 极易爆显存。
帧数：建议 17 帧或 33 帧。视频模型需要锚点帧（1+16、1+32），奇数帧数适配性更强。
帧率：下游可调整，33 帧搭配 8fps 可生成 4 秒流畅短片。

步骤4：KSampler（核心渲染引擎）

添加标准 KSampler 节点，连接模型、正负条件、潜变量视频，参数设置如下：

随机种子：探索时设为随机，微调成品时固定种子。
迭代步数：20–30 步，超过 40 步画质无明显提升，仅浪费渲染时间。
CFG 系数：保持低值，初始设为 3.0；指令遵循度不足可升至 4.0；画面过曝、出现噪点则降至 2.5。
采样器：euler 或 euler_ancestral，DiT 模型对欧拉采样器适配极佳。
调度器：normal 或 sgm_uniform。
降噪强度：纯文生视频设为 1.0。

步骤5：解码与视频输出

将 KSampler 输出的 LATENT 连接至 VAE Decode 节点，同步连接初始加载的 VAE。

解码后的 IMAGE 接入 Video Combine 节点（可通过 ComfyUI-VideoHelperSuite 插件获取）：

帧率设为 8、12 或 24，按需选择。
格式选择 video/h264-mp4，支持浏览器原生播放。

点击队列渲染，配置正确的情况下，即可生成连贯稳定的短视频。

四、进阶技巧：图生视频（I2V）

文生视频适合创意探索，图生视频更适合项目实用素材制作。可先在 Midjourney 或 SDXL 生成优质静图，再通过 LTX 赋予动态效果。

工作流转换步骤：

添加 Load Image 节点，导入目标静图。
添加 VAE Encode 节点，编码图像后替换 KSampler 的空潜变量。
关键设置：使用 LTX Image Conditioning 自定义节点，将图像注入模型或条件流，告知模型以图像为基础生成。
降噪强度调整：设为 0.8–0.85。设为 1.0 会完全覆盖原图，仅按提示词生成；低于 0.4 则画面无动态效果。

五、常见问题排查与修复

即使配置完美，仍可能出现异常，以下是 LTX 2.3 高频问题解决方案：

问题1：视频中途变为灰色噪点画面 解决方法：CFG 系数过高，或提示词包含模型无法理解的动作。将 CFG 降低 0.5，仍异常则简化提示词。

问题2：主体移动但背景拉伸变形 解决方法：典型 DiT 架构瑕疵，添加反向提示词 背景扭曲、透视变形、不合理运镜，或降低总帧数。模型针对短片段训练，60 帧长视频易超出适配范围。

问题3：CUDA 显存不足（OOM） 解决方法：

关闭占用硬件加速的浏览器标签（如 YouTube）。
分辨率降至 512×512。
帧数降至 17 帧。
通过 ComfyUI-Manager 安装 FP8 量化模型，替代 FP16 原版，显存占用减半，画质几乎无损失。

总结

在 ComfyUI 中流畅运行 LTX 2.3 需要些许耐心，但回报显著。告别旧模型卡顿、畸形的 AI 视频效果，实现可控、高质量的视频生成。建议从低分辨率、短帧数开始练习，打磨提示词风格，锁定优质种子与构图后，再逐步提升画质与时长。