Video Multimodal Generate Overview 调用 基于音频/视频/图片/文字任意组合做多模态混合驱动视频生成。适合音乐配视频、参考视频运镜/节奏、多素材混合生成。 不处理:纯文字生成视频、仅图片生成视频(无视频无音频)、动作迁移。 API Mapping | DAG 工具 | 后端 API | |---|---| | video-multimodal-generate | | Dependencies - meitu-cli : - 凭证 :CONFIG AKSK → ;EXEC AKSK → 跑命令 - 环境变量 : 路径别名: = Core Workflow Preflight 1. ≥ 2.0.6; 2. 确认已跑过 Config Phase; 3. output dir 解析:openclaw.yaml → | else → ; Execute 触发信号/路由 触发条件(任一成立): - 用户上传音频 → 必须走本工具(独有能力) - 仅视频无图片 → 运镜/风格/节奏参考 - 用户想参考视频的运镜/风格/节奏(不是模仿人体动作) - 复杂多素材混合(图片+视频+音频) 决策顺序: 1. 至少一类多媒体素材; 缺失 → 追问 2. 素材总数 ≤12(图片+视频+音频合计) 3. 唯一路由 → 有图+视频但意图不明(运镜 vs 动作模仿)→ 默认走…