字幕 转录 → 纠错 → 审核 → 匹配 → 烧录 流程 转录 使用 OpenAI Whisper 模型进行语音转文字: | 模型 | 用途 | |------|------| | | 默认,平衡速度与准确率 | | | 高精度,较慢 | 输出 JSON 包含逐词时间戳,用于后续 SRT 生成。 --- 字幕规范 | 规则 | 说明 | |------|------| | 一屏一行 | 不换行,不堆叠 | | ≤15字/行 | 超过15字必须拆分(4:3竖屏) | | 句尾无标点 | 不是 | | 句中保留标点 | | --- 词典纠错 读取 ,每行一个正确写法: 我自动识别变体: → --- 字幕稿格式 我给用户的 (纯文本,≤15字/行): 用户修改后给回我 ,我再匹配时间戳生成 SRT。 --- 样式 默认:24号白字、黑色描边、底部居中 可选样式: | 样式 | 说明 | |------|------| | 默认 | 白字黑边 | | 黄字 | 黄字黑边(醒目) | 用户可说: - "字大一点" → 32号 - "放顶部" → 顶部居中 - "黄色字幕" → 黄字黑边 --- 输出 ---