digital-human-api — Skillopedia

digital-human-api v3 基于青云API的通用数字人口播视频生成 Skill。 v3核心改进：每shot生成专属场景图（Daniel真脸 + 个性化场景），视频自然不抽象。触发条件 - 、、 - 基于剧本生成分镜头数字人视频 v3 新流程（4步/shot）每shot独立流程： 1. 🖼️ 场景图生成 — Grok依据参考脸生成贴合场景的图片（保持Daniel的脸） 2. 📝 TTS语音 — Gemini生成口播音频 3. 🎬 Kling视频 — 场景图 + 动作提示词 → 动态视频 4. 👄 对口型 — Kling LipSync音画同步 5. 🔗 FFmpeg合并 — 所有shot + BGM → 最终视频 v3 剧本格式 emotion 可选值 | emotion | 动作风格 | |---------|---------| | | 严肃直视镜头 | | | 友好微笑 | | | 兴奋手势多 | | | 讽刺挑眉 | | | 讲故事手势 | | | 幽默轻松 | | | 紧张/激动 | | | 自信权威 | | | 疑惑歪头 | | | 日常对话 | scene description 写法描述越具体，场景图越贴合。建议格式： - 人物表情+动作（如：raised eyebrow, holding coffee cup） - 场景（如：mod…