video-multimodal-generate

Video Multimodal Generate Overview 调用基于音频/视频/图片/文字任意组合做多模态混合驱动视频生成。适合音乐配视频、参考视频运镜/节奏、多素材混合生成。不处理：纯文字生成视频、仅图片生成视频（无视频无音频）、动作迁移。 API Mapping | DAG 工具 | 后端 API | |---|---| | video-multimodal-generate | | Dependencies - meitu-cli : - 凭证：CONFIG AKSK → ；EXEC AKSK → 跑命令 - 环境变量：路径别名： = Core Workflow Preflight 1. ≥ 2.0.6； 2. 确认已跑过 Config Phase； 3. output dir 解析：openclaw.yaml → | else → ； Execute 触发信号/路由触发条件（任一成立）： - 用户上传音频 → 必须走本工具（独有能力） - 仅视频无图片 → 运镜/风格/节奏参考 - 用户想参考视频的运镜/风格/节奏（不是模仿人体动作） - 复杂多素材混合（图片+视频+音频）决策顺序： 1. 至少一类多媒体素材；缺失 → 追问 2. 素材总数 ≤12（图片+视频+音频合计） 3. 唯一路由 → 有图+视频但意图不明（运镜 vs 动作模仿）→ 默认走…