digital-human-api v3 基于青云API的通用数字人口播视频生成 Skill。 v3核心改进:每shot生成专属场景图(Daniel真脸 + 个性化场景),视频自然不抽象。 触发条件 - 、 、 - 基于剧本生成分镜头数字人视频 v3 新流程(4步/shot) 每shot独立流程: 1. 🖼️ 场景图生成 — Grok依据参考脸生成贴合场景的图片(保持Daniel的脸) 2. 📝 TTS语音 — Gemini生成口播音频 3. 🎬 Kling视频 — 场景图 + 动作提示词 → 动态视频 4. 👄 对口型 — Kling LipSync音画同步 5. 🔗 FFmpeg合并 — 所有shot + BGM → 最终视频 v3 剧本格式 emotion 可选值 | emotion | 动作风格 | |---------|---------| | | 严肃直视镜头 | | | 友好微笑 | | | 兴奋手势多 | | | 讽刺挑眉 | | | 讲故事手势 | | | 幽默轻松 | | | 紧张/激动 | | | 自信权威 | | | 疑惑歪头 | | | 日常对话 | scene description 写法 描述越具体,场景图越贴合。建议格式: - 人物表情+动作(如:raised eyebrow, holding coffee cup) - 场景(如:mod…