multimodal-gen — Skillopedia

多模态内容生成当用户需要生成图片或视频时，自动调用进行处理。触发场景图片生成 - "生成一张图片" - "画一张..." - "AI 作图" - "文生图" - "帮我生成图像" - "用 flux/imagen/dalle 生成" 视频生成 - "生成一个视频" - "做个视频" - "文生视频" - "用 veo/sora/kling 生成视频" 使用方式自动调用 multimodal-agent 可用模型图片生成 | 别名 | 模型 | 特点 | |------|------|------| | | flux-pro-max | 高质量，推荐 | | | google/imagen-4-ultra | Google 最强 | | | gpt-image-1 | DALL-E 3 | | | doubao-seedream-4-5 | 中式美学 | | | kling-image | 可灵生图 | 视频生成 | 别名 | 模型 | 特点 | |------|------|------| | | veo3.1-pro | Google 专业版 | | | veo3.1-pro-4k | 4K 高清 | | | sora-2-pro-all | OpenAI Sora | | | kling-video | 可灵视频 | 执行流程示例生成图片生成视频指定模型…