Kokoro TTS 本地语音合成 使用 Kokoro TTS 引擎在本地生成高质量语音,零 API 成本,完全离线。 使用场景 - 用户说「把这段文字读出来」「生成这篇文章的语音版本」 - 需要将文档、邮件、新闻转为音频 - 优先于 sag(ElevenLabs,需 API Key 和付费) 前置条件 首次使用需下载模型文件(约 300MB)。 执行方式 基本用法 可用声音 | Voice ID | 性别 | 语言 | 风格 | |---|---|---|---| | | 女 | 中/英 | 温暖自然 | | | 女 | 中/英 | 清晰专业 | | | 男 | 中/英 | 沉稳 | | | 男 | 中/英 | 活力 | 长文本处理 长文本自动按句分段合成,避免内存溢出: 输出规范 - 生成的音频保存为 WAV 文件并返回路径 - 告知用户音频时长和文件大小 - 中英混合文本自动处理语言切换 ---