FunASR 语音转文字 本 skill 提供本地语音识别服务,将音频或视频文件转换为结构化的 Markdown 文档。 功能概述 - 支持多种音视频格式(mp4、mov、mp3、wav、m4a、flac 等) - 自动生成时间戳 - 支持说话人分离(diarization,默认启用) - ONNX 加速模式 :支持 与实验性的 - 单人快速模式 : / 关闭 diarization,默认仍走 - Paraformer ONNX 后处理优化 : 单人/多人路径都会先 VAD 分段,再清理文本输出、恢复标点并输出句子级时间戳;单人路径使用全局标点恢复,多人路径使用逐段标点以保留 speaker 对齐 - 视频关键帧截图提取 :自动检测并提取 PPT 幻灯片,插入到转录稿对应位置(视频文件自动启用) - 转录后自动附带 AI 总结提示词,Agent 可一步完成总结 - 输出 Markdown 格式,便于阅读和编辑 依赖 系统依赖 | 依赖 | 安装方式 | |------|----------| | Python 3.8+ | macOS: | | curl | macOS 通常自带;如缺失可执行 | Python 包 | 包名 | 用途 | 安装命令 | |------|------|----------| | | FunASR 原生推理与 CAM++ diarization |…