语音识别提取文本
目录
- 一、前言
- 二、Whisper介绍及对比
- 1、faster-Whisper
- 2、faster-Whisper代码实现
- 3、结论说明
一、前言
音视频中的文本提取实际上就是 语音识别(Speech-to-Text)任务。音频转文本的主流技术栈有:Whisper、SpeechRecognition等等。
本文主要使用Whisper技术栈实现语音识别。
二、Whisper介绍及对比
Whisper 是 OpenAI 于 2022 年开源的一个 端到端自动语音识别(ASR)系统,支持 多语言语音识别、翻译、标点恢复 等任务。它是目前准确率、鲁棒性和多语言支持表现最优秀的开源语音识别模型之一。
模型类型:Transformer,预训练模型
优势:
强多语言支持(中、英、法等);
可离线运行;
精度非常高,适合中文;
Whisper模型对比