ComfyUI 语音控制工作流教程：用语音命令生成图像

本篇分步教程将教你在 ComfyUI 中搭建语音控制 AI 图像生成工作流——从语音转文字（STT）集成，到可通过语音调节的各项参数。

简介

ComfyUI 的语音控制工作流允许你使用自然语音控制 AI 图像生成，无需手动输入提示词或拖动滑块。这套方案非常适合：

免手动操作（如手绘、多任务同时进行时）
快速迭代（实时口述调整提示词）
无障碍使用（偏好语音而非文字的用户）
动态参数控制（用语音调节风格、分辨率、强度等）

本教程包含两大核心工作流：

基础版：语音转文字（STT）→ 文生图（T2I）
高级版：语音控制参数（口述风格、强度、分辨率，无需操作界面）

所有工具均免费、开源，并兼容 ComfyUI 的节点化系统。

准备工作

开始前请确保你已准备：

已更新的 ComfyUI（推荐每日构建版；安装指南）
显存 ≥8GB 的 GPU（大型模型流畅运行建议 ≥12GB）
麦克风（内置或外置，语音输入必需）
稳定的网络（用于下载 STT 模型与插件）
掌握 ComfyUI 核心节点基础（Load Checkpoint、Sampler 等）

必需工具与模型

组件	用途	下载/安装链接
ComfyUI 语音输入插件	为 ComfyUI 添加语音识别节点	GitHub（可通过 ComfyUI 管理器安装）
Whisper STT 模型	开源语音转文字	Hugging Face（低显存可选 base 版）
文生图模型	核心图像生成（如 SD 1.5/XL）	Civitai 或 ComfyUI 默认模型
可选：ControlNet	用于语音控制姿态/风格	Civitai

第一部分：在 ComfyUI 中配置语音输入

步骤 1：安装语音输入插件

打开 ComfyUI，进入右上角 ComfyUI 管理器。
在插件商店搜索 Voice Input。
点击安装，重启 ComfyUI 使插件生效。

步骤 2：下载 Whisper STT 模型

进入 Whisper 模型库，根据显存选择：
- whisper-tiny（1.1GB）：≥4GB 显存，更快但精度较低
- whisper-small（4.1GB）：≥8GB 显存，速度与精度平衡
- whisper-medium（13GB）：≥12GB 显存，精度最高
下载 .bin 模型文件（如 pytorch_model.bin）。
在 ComfyUI/models/ 下新建文件夹 whisper/，将模型放入。

步骤 3：验证语音输入配置

重新打开 ComfyUI，在画布右键 → 添加节点 → Voice Input。
确认出现以下节点（说明插件安装成功）：
- Voice Recorder：录制麦克风输入
- Whisper STT：语音转文字
- Voice Parameter Parser：可选，从语音中提取参数

第二部分：基础工作流 —— 语音转文字 → 文生图

本工作流将你的语音提示词转为文字，再用文字生成图像。

步骤 1：添加核心节点

在画布右键添加以下节点：

Voice Recorder
Whisper STT
Load Checkpoint
CLIP Text Encode
KSampler
Save Image

步骤 2：配置节点

1. Voice Recorder

device 保持 default（使用系统默认麦克风）
sample_rate 设置为 16000（Whisper 标准采样率）

2. Whisper STT

model_name 选择你下载的模型（如 whisper-small）
language 设置为 zh（中文）或 en（英文）

3. Load Checkpoint

选择一个文生图模型（如 SDXL-Base-1.0、Realistic Vision 6.0）

步骤 3：连接工作流（关键）

按以下顺序连接：

Voice Recorder 的 audio → Whisper STT 的 audio
Whisper STT 的 text → CLIP Text Encode 的 text
Load Checkpoint 的 model → KSampler 的 model
Load Checkpoint 的 clip → CLIP Text Encode 的 clip
CLIP Text Encode 的 conditioning → KSampler 的 positive
KSampler 的 image → Save Image 的 image

步骤 4：运行语音控制工作流

点击 Voice Recorder 上的 Record 按钮（变红表示正在录制）。
清晰说出提示词，例如：
“赛博朋克城市夜晚，霓虹灯，照片级真实感，8K分辨率”
点击 Stop（或静音5秒后自动停止）。
Whisper STT 会将语音转为文字。
点击右上角 Queue Prompt 生成图像。

专业提示长提示词请在句子间短暂停顿，Whisper 对自然停顿识别效果更好。若文字不准确，放慢语速、清晰咬字重新录制。

第三部分：高级工作流 —— 语音控制参数

进一步使用语音命令调节生成参数（风格、强度、分辨率等），无需编辑节点。

步骤 1：添加高级节点

在基础工作流上添加：

Voice Parameter Parser
Float / Integer 节点（用于参数数值）
ControlNet Loader（可选，用于语音控制风格）

步骤 2：定义可语音控制的参数

Voice Parameter Parser 可将语音命令映射为数值。示例：

“set strength to 0.8” → 调整 LoRA/ControlNet 强度
“Resolution 1024x768” → 设置图像宽高
“Style realistic” → 切换写实风格模型

配置方法：

在节点中点击 add parameter。
为每个参数设置：
- Parameter Name：如 strength、width、height、style
- Command Prefix：如 set strength to、resolution width
- Default Value：默认值

步骤 3：连接参数节点

Whisper STT 的 text → Voice Parameter Parser 的 text
强度控制：
- strength 输出连接到 Float 节点，再连到 Load LoRA 或 ControlNet
分辨率控制：
- width/height 连接到 Integer 节点，再连到 KSampler
风格控制（高级）：
- 添加 Model Switch 节点
- 通过解析器将“style anime”“style realistic”映射到不同模型

步骤 4：测试语音控制生成

录制带参数的语音命令，例如：
“风格动漫，强度0.9，分辨率1024x1024，一只带翅膀的可爱小猫”
解析器会自动提取数值并传给对应节点。
提交任务生成图像。

重要提示参数命令请保持简单、一致。避免模糊语句，例如用“set width to 1280”而不是“make it bigger”。

第四部分：常见问题排查

问题 1：Voice Recorder 无法捕获声音

检查麦克风是否设为默认设备
关闭其他占用麦克风的软件（Zoom、Discord 等）
重装语音输入插件

问题 2：Whisper 转文字不准确

使用更大的 Whisper 模型
放慢语速、减少背景噪音
在节点中设置正确语言（如 zh 中文）

问题 3：参数无法通过语音更新

检查 Command Prefix 是否与你说的语句一致
确认解析器输出已正确连接到目标节点
先用简单单参数命令测试，再用复杂命令

问题 4：显存不足（OOM）

使用更小的 Whisper 模型
降低图像分辨率
开启模型卸载（ComfyUI 设置 → 性能）

问题 5：工作流运行但不出图

检查所有节点是否正确连接
确认 Save Image 路径有效
确保 KSampler 有正确的正面提示词

第五部分：最佳实践

固定语音句式：统一使用“set 参数 to 数值”结构，识别更稳定。
减少环境噪音：在安静环境录制，或使用降噪麦克风。
先文字测试：先用文字测试提示词，再用语音，避免重复录制。
保存工作流：将可用的语音工作流保存，方便重复使用。
定期更新：语音插件与 Whisper 模型更新频繁，新版本会提升精度与速度。
控制参数数量：单次命令不要超过 2–3 个参数，识别更稳定。

更多资源：