当前位置: 首页 > news >正文

语音识别提取文本

目录

  • 一、前言
  • 二、Whisper介绍及对比
    • 1、faster-Whisper
    • 2、faster-Whisper代码实现
    • 3、结论说明

一、前言

音视频中的文本提取实际上就是 语音识别(Speech-to-Text)任务。音频转文本的主流技术栈有:Whisper、SpeechRecognition等等。
在这里插入图片描述
本文主要使用Whisper技术栈实现语音识别。

二、Whisper介绍及对比

  Whisper 是 OpenAI 于 2022 年开源的一个 端到端自动语音识别(ASR)系统,支持 多语言语音识别、翻译、标点恢复 等任务。它是目前准确率、鲁棒性和多语言支持表现最优秀的开源语音识别模型之一。
模型类型:Transformer,预训练模型
优势
强多语言支持(中、英、法等);
可离线运行;
精度非常高,适合中文;
Whisper模型对比
在这里插入图片描述

http://www.lqws.cn/news/481843.html

相关文章:

  • LINUX 622 SAMBA
  • Linux系统基本操作指令
  • Docker Desktop + Kubernetes 使用 hostPath 持久化挂载“坑点”全解析
  • Python 爬虫简单示例
  • JAVA集合篇--深入理解ConcurrentHashMap图解版
  • Python 深度学习基础:TensorFlow 入门——从张量到神经网络的实战指南
  • Kafka 源码剖析:消息存储与协议实现(二)
  • GIT学习笔记
  • Cursor快速上手+科学使用指南
  • EMD与PI:战略与执行的协同
  • 【数据结构与算法】数据结构核心概念系统梳理
  • IntelliJ IDEA 中 Update Project 与 Git Pull
  • Linux内核中安全创建套接字:为何inet_create未导出及正确替代方案
  • 性能测试之接口关联和函数使用
  • Spring JDBC配置与使用
  • 【DDD】——带你领略领域驱动设计的独特魅力
  • redis相关面试题
  • React基础
  • 64-Oracle Redo Log
  • Python商务数据分析——Python 入门基础知识学习笔记
  • SpringBoot+Vue服装商城系统 附带详细运行指导视频
  • Redis ①①-AOF
  • 【数据治理】要点整理-《数据管理能力成熟度评估模型》国家标准(GB/T 36073—2018)
  • Java基础八股文 - 面试者心理历程与标准答案
  • VS2019调试进入FFmpeg源码
  • mysql join的原理及过程
  • 核心概念解析:AI、数据挖掘、机器学习与深度学习的关系
  • LangGraph--基础学习(memory和持久化)
  • B端登录页防攻击策略:抵御暴力破解的6道硬核防线
  • 前端的跨域问题