funasr-transcribe — Skillopedia

FunASR 语音转文字本 skill 提供本地语音识别服务，将音频或视频文件转换为结构化的 Markdown 文档。功能概述 - 支持多种音视频格式（mp4、mov、mp3、wav、m4a、flac 等） - 自动生成时间戳 - 支持说话人分离（diarization，默认启用） - ONNX 加速模式：支持与实验性的 - 单人快速模式： / 关闭 diarization，默认仍走 - Paraformer ONNX 后处理优化：单人/多人路径都会先 VAD 分段，再清理文本输出、恢复标点并输出句子级时间戳；单人路径使用全局标点恢复，多人路径使用逐段标点以保留 speaker 对齐 - 视频关键帧截图提取：自动检测并提取 PPT 幻灯片，插入到转录稿对应位置（视频文件自动启用） - 转录后自动附带 AI 总结提示词，Agent 可一步完成总结 - 输出 Markdown 格式，便于阅读和编辑依赖系统依赖 | 依赖 | 安装方式 | |------|----------| | Python 3.8+ | macOS: | | curl | macOS 通常自带；如缺失可执行 | Python 包 | 包名 | 用途 | 安装命令 | |------|------|----------| | | FunASR 原生推理与 CAM++ diarization |…