ComfyUI 语音控制工作流教程:用语音命令生成图像
本篇分步教程将教你在 ComfyUI 中搭建语音控制 AI 图像生成工作流——从语音转文字(STT)集成,到可通过语音调节的各项参数。
简介
ComfyUI 的语音控制工作流允许你使用自然语音控制 AI 图像生成,无需手动输入提示词或拖动滑块。这套方案非常适合:
- 免手动操作(如手绘、多任务同时进行时)
- 快速迭代(实时口述调整提示词)
- 无障碍使用(偏好语音而非文字的用户)
- 动态参数控制(用语音调节风格、分辨率、强度等)
本教程包含两大核心工作流:
- 基础版:语音转文字(STT)→ 文生图(T2I)
- 高级版:语音控制参数(口述风格、强度、分辨率,无需操作界面)
所有工具均免费、开源,并兼容 ComfyUI 的节点化系统。
准备工作
开始前请确保你已准备:
- 已更新的 ComfyUI(推荐每日构建版;安装指南)
- 显存 ≥8GB 的 GPU(大型模型流畅运行建议 ≥12GB)
- 麦克风(内置或外置,语音输入必需)
- 稳定的网络(用于下载 STT 模型与插件)
- 掌握 ComfyUI 核心节点基础(Load Checkpoint、Sampler 等)
必需工具与模型
| 组件 | 用途 | 下载/安装链接 |
|---|---|---|
| ComfyUI 语音输入插件 | 为 ComfyUI 添加语音识别节点 | GitHub(可通过 ComfyUI 管理器安装) |
| Whisper STT 模型 | 开源语音转文字 | Hugging Face(低显存可选 base 版) |
| 文生图模型 | 核心图像生成(如 SD 1.5/XL) | Civitai 或 ComfyUI 默认模型 |
| 可选:ControlNet | 用于语音控制姿态/风格 | Civitai |
第一部分:在 ComfyUI 中配置语音输入
步骤 1:安装语音输入插件
- 打开 ComfyUI,进入右上角 ComfyUI 管理器。
- 在插件商店搜索 Voice Input。
- 点击安装,重启 ComfyUI 使插件生效。
步骤 2:下载 Whisper STT 模型
- 进入 Whisper 模型库,根据显存选择:
whisper-tiny(1.1GB):≥4GB 显存,更快但精度较低whisper-small(4.1GB):≥8GB 显存,速度与精度平衡whisper-medium(13GB):≥12GB 显存,精度最高
- 下载
.bin模型文件(如pytorch_model.bin)。 - 在
ComfyUI/models/下新建文件夹whisper/,将模型放入。
步骤 3:验证语音输入配置
- 重新打开 ComfyUI,在画布右键 → 添加节点 → Voice Input。
- 确认出现以下节点(说明插件安装成功):
Voice Recorder:录制麦克风输入Whisper STT:语音转文字Voice Parameter Parser:可选,从语音中提取参数
第二部分:基础工作流 —— 语音转文字 → 文生图
本工作流将你的语音提示词转为文字,再用文字生成图像。
步骤 1:添加核心节点
在画布右键添加以下节点:
- Voice Recorder
- Whisper STT
- Load Checkpoint
- CLIP Text Encode
- KSampler
- Save Image
步骤 2:配置节点
1. Voice Recorder
device保持default(使用系统默认麦克风)sample_rate设置为 16000(Whisper 标准采样率)
2. Whisper STT
model_name选择你下载的模型(如whisper-small)language设置为zh(中文)或en(英文)
3. Load Checkpoint
- 选择一个文生图模型(如
SDXL-Base-1.0、Realistic Vision 6.0)
步骤 3:连接工作流(关键)
按以下顺序连接:
Voice Recorder的audio→Whisper STT的audioWhisper STT的text→CLIP Text Encode的textLoad Checkpoint的model→KSampler的modelLoad Checkpoint的clip→CLIP Text Encode的clipCLIP Text Encode的conditioning→KSampler的positiveKSampler的image→Save Image的image
步骤 4:运行语音控制工作流
- 点击
Voice Recorder上的 Record 按钮(变红表示正在录制)。 - 清晰说出提示词,例如:
“赛博朋克城市夜晚,霓虹灯,照片级真实感,8K分辨率”
- 点击 Stop(或静音5秒后自动停止)。
Whisper STT会将语音转为文字。- 点击右上角 Queue Prompt 生成图像。
专业提示 长提示词请在句子间短暂停顿,Whisper 对自然停顿识别效果更好。若文字不准确,放慢语速、清晰咬字重新录制。
第三部分:高级工作流 —— 语音控制参数
进一步使用语音命令调节生成参数(风格、强度、分辨率等),无需编辑节点。
步骤 1:添加高级节点
在基础工作流上添加:
- Voice Parameter Parser
- Float / Integer 节点(用于参数数值)
- ControlNet Loader(可选,用于语音控制风格)
步骤 2:定义可语音控制的参数
Voice Parameter Parser 可将语音命令映射为数值。
示例:
- “set strength to 0.8” → 调整 LoRA/ControlNet 强度
- “Resolution 1024x768” → 设置图像宽高
- “Style realistic” → 切换写实风格模型
配置方法:
- 在节点中点击
add parameter。 - 为每个参数设置:
Parameter Name:如strength、width、height、styleCommand Prefix:如set strength to、resolution widthDefault Value:默认值
步骤 3:连接参数节点
Whisper STT的text→Voice Parameter Parser的text- 强度控制:
strength输出连接到Float节点,再连到Load LoRA或ControlNet
- 分辨率控制:
width/height连接到Integer节点,再连到KSampler
- 风格控制(高级):
- 添加
Model Switch节点 - 通过解析器将“style anime”“style realistic”映射到不同模型
- 添加
步骤 4:测试语音控制生成
- 录制带参数的语音命令,例如:
“风格动漫,强度0.9,分辨率1024x1024,一只带翅膀的可爱小猫”
- 解析器会自动提取数值并传给对应节点。
- 提交任务生成图像。
重要提示 参数命令请保持简单、一致。避免模糊语句,例如用“set width to 1280”而不是“make it bigger”。
第四部分:常见问题排查
问题 1:Voice Recorder 无法捕获声音
- 检查麦克风是否设为默认设备
- 关闭其他占用麦克风的软件(Zoom、Discord 等)
- 重装语音输入插件
问题 2:Whisper 转文字不准确
- 使用更大的 Whisper 模型
- 放慢语速、减少背景噪音
- 在节点中设置正确语言(如
zh中文)
问题 3:参数无法通过语音更新
- 检查
Command Prefix是否与你说的语句一致 - 确认解析器输出已正确连接到目标节点
- 先用简单单参数命令测试,再用复杂命令
问题 4:显存不足(OOM)
- 使用更小的 Whisper 模型
- 降低图像分辨率
- 开启模型卸载(ComfyUI 设置 → 性能)
问题 5:工作流运行但不出图
- 检查所有节点是否正确连接
- 确认
Save Image路径有效 - 确保
KSampler有正确的正面提示词
第五部分:最佳实践
- 固定语音句式:统一使用“set 参数 to 数值”结构,识别更稳定。
- 减少环境噪音:在安静环境录制,或使用降噪麦克风。
- 先文字测试:先用文字测试提示词,再用语音,避免重复录制。
- 保存工作流:将可用的语音工作流保存,方便重复使用。
- 定期更新:语音插件与 Whisper 模型更新频繁,新版本会提升精度与速度。
- 控制参数数量:单次命令不要超过 2–3 个参数,识别更稳定。
更多资源: