ComfyUI 语音控制工作流教程:用语音命令生成图像

本篇分步教程将教你在 ComfyUI 中搭建语音控制 AI 图像生成工作流——从语音转文字(STT)集成,到可通过语音调节的各项参数。


简介

ComfyUI 的语音控制工作流允许你使用自然语音控制 AI 图像生成,无需手动输入提示词或拖动滑块。这套方案非常适合:

  • 免手动操作(如手绘、多任务同时进行时)
  • 快速迭代(实时口述调整提示词)
  • 无障碍使用(偏好语音而非文字的用户)
  • 动态参数控制(用语音调节风格、分辨率、强度等)

本教程包含两大核心工作流:

  1. 基础版:语音转文字(STT)→ 文生图(T2I)
  2. 高级版:语音控制参数(口述风格、强度、分辨率,无需操作界面)

所有工具均免费、开源,并兼容 ComfyUI 的节点化系统。


准备工作

开始前请确保你已准备:

  • 已更新的 ComfyUI(推荐每日构建版;安装指南
  • 显存 ≥8GB 的 GPU(大型模型流畅运行建议 ≥12GB)
  • 麦克风(内置或外置,语音输入必需)
  • 稳定的网络(用于下载 STT 模型与插件)
  • 掌握 ComfyUI 核心节点基础(Load Checkpoint、Sampler 等)

必需工具与模型

组件用途下载/安装链接
ComfyUI 语音输入插件为 ComfyUI 添加语音识别节点GitHub(可通过 ComfyUI 管理器安装)
Whisper STT 模型开源语音转文字Hugging Face(低显存可选 base 版)
文生图模型核心图像生成(如 SD 1.5/XL)Civitai 或 ComfyUI 默认模型
可选:ControlNet用于语音控制姿态/风格Civitai

第一部分:在 ComfyUI 中配置语音输入

步骤 1:安装语音输入插件

  1. 打开 ComfyUI,进入右上角 ComfyUI 管理器
  2. 在插件商店搜索 Voice Input
  3. 点击安装,重启 ComfyUI 使插件生效。

步骤 2:下载 Whisper STT 模型

  1. 进入 Whisper 模型库,根据显存选择:
    • whisper-tiny(1.1GB):≥4GB 显存,更快但精度较低
    • whisper-small(4.1GB):≥8GB 显存,速度与精度平衡
    • whisper-medium(13GB):≥12GB 显存,精度最高
  2. 下载 .bin 模型文件(如 pytorch_model.bin)。
  3. ComfyUI/models/ 下新建文件夹 whisper/,将模型放入。

步骤 3:验证语音输入配置

  1. 重新打开 ComfyUI,在画布右键 → 添加节点Voice Input
  2. 确认出现以下节点(说明插件安装成功):
    • Voice Recorder:录制麦克风输入
    • Whisper STT:语音转文字
    • Voice Parameter Parser:可选,从语音中提取参数

第二部分:基础工作流 —— 语音转文字 → 文生图

本工作流将你的语音提示词转为文字,再用文字生成图像。

步骤 1:添加核心节点

在画布右键添加以下节点:

  1. Voice Recorder
  2. Whisper STT
  3. Load Checkpoint
  4. CLIP Text Encode
  5. KSampler
  6. Save Image

步骤 2:配置节点

1. Voice Recorder

  • device 保持 default(使用系统默认麦克风)
  • sample_rate 设置为 16000(Whisper 标准采样率)

2. Whisper STT

  • model_name 选择你下载的模型(如 whisper-small
  • language 设置为 zh(中文)或 en(英文)

3. Load Checkpoint

  • 选择一个文生图模型(如 SDXL-Base-1.0Realistic Vision 6.0

步骤 3:连接工作流(关键)

按以下顺序连接:

  1. Voice RecorderaudioWhisper STTaudio
  2. Whisper STTtextCLIP Text Encodetext
  3. Load CheckpointmodelKSamplermodel
  4. Load CheckpointclipCLIP Text Encodeclip
  5. CLIP Text EncodeconditioningKSamplerpositive
  6. KSamplerimageSave Imageimage

步骤 4:运行语音控制工作流

  1. 点击 Voice Recorder 上的 Record 按钮(变红表示正在录制)。
  2. 清晰说出提示词,例如:

    “赛博朋克城市夜晚,霓虹灯,照片级真实感,8K分辨率”

  3. 点击 Stop(或静音5秒后自动停止)。
  4. Whisper STT 会将语音转为文字。
  5. 点击右上角 Queue Prompt 生成图像。

专业提示 长提示词请在句子间短暂停顿,Whisper 对自然停顿识别效果更好。若文字不准确,放慢语速、清晰咬字重新录制。


第三部分:高级工作流 —— 语音控制参数

进一步使用语音命令调节生成参数(风格、强度、分辨率等),无需编辑节点。

步骤 1:添加高级节点

在基础工作流上添加:

  1. Voice Parameter Parser
  2. Float / Integer 节点(用于参数数值)
  3. ControlNet Loader(可选,用于语音控制风格)

步骤 2:定义可语音控制的参数

Voice Parameter Parser 可将语音命令映射为数值。 示例:

  • “set strength to 0.8” → 调整 LoRA/ControlNet 强度
  • “Resolution 1024x768” → 设置图像宽高
  • “Style realistic” → 切换写实风格模型

配置方法:

  1. 在节点中点击 add parameter
  2. 为每个参数设置:
    • Parameter Name:如 strengthwidthheightstyle
    • Command Prefix:如 set strength toresolution width
    • Default Value:默认值

步骤 3:连接参数节点

  1. Whisper STTtextVoice Parameter Parsertext
  2. 强度控制:
    • strength 输出连接到 Float 节点,再连到 Load LoRAControlNet
  3. 分辨率控制:
    • width/height 连接到 Integer 节点,再连到 KSampler
  4. 风格控制(高级):
    • 添加 Model Switch 节点
    • 通过解析器将“style anime”“style realistic”映射到不同模型

步骤 4:测试语音控制生成

  1. 录制带参数的语音命令,例如:

    “风格动漫,强度0.9,分辨率1024x1024,一只带翅膀的可爱小猫”

  2. 解析器会自动提取数值并传给对应节点。
  3. 提交任务生成图像。

重要提示 参数命令请保持简单、一致。避免模糊语句,例如用“set width to 1280”而不是“make it bigger”。


第四部分:常见问题排查

问题 1:Voice Recorder 无法捕获声音

  • 检查麦克风是否设为默认设备
  • 关闭其他占用麦克风的软件(Zoom、Discord 等)
  • 重装语音输入插件

问题 2:Whisper 转文字不准确

  • 使用更大的 Whisper 模型
  • 放慢语速、减少背景噪音
  • 在节点中设置正确语言(如 zh 中文)

问题 3:参数无法通过语音更新

  • 检查 Command Prefix 是否与你说的语句一致
  • 确认解析器输出已正确连接到目标节点
  • 先用简单单参数命令测试,再用复杂命令

问题 4:显存不足(OOM)

  • 使用更小的 Whisper 模型
  • 降低图像分辨率
  • 开启模型卸载(ComfyUI 设置 → 性能)

问题 5:工作流运行但不出图

  • 检查所有节点是否正确连接
  • 确认 Save Image 路径有效
  • 确保 KSampler 有正确的正面提示词

第五部分:最佳实践

  1. 固定语音句式:统一使用“set 参数 to 数值”结构,识别更稳定。
  2. 减少环境噪音:在安静环境录制,或使用降噪麦克风。
  3. 先文字测试:先用文字测试提示词,再用语音,避免重复录制。
  4. 保存工作流:将可用的语音工作流保存,方便重复使用。
  5. 定期更新:语音插件与 Whisper 模型更新频繁,新版本会提升精度与速度。
  6. 控制参数数量:单次命令不要超过 2–3 个参数,识别更稳定。

更多资源: