语音转文字-Whisper

关于**语音识别**，这篇总结的很好：https://zhuanlan.zhihu.com/p/631859999

介绍下Whisper，这是一款离线的语音识别工具。

OpeanAI 推出的 Whipser 语音识别模型，绝对是目前最好的选择，没有之一。

对，它和 ChatGPT 是同门师兄弟。

## Whisper
Whipser 多语言语音识别模型，通过了 68 万小时的语音数据训练，支持 99 种语言，对英文的表现更是强无敌。

更重要的是，它开源免费，在电脑上就能离线使用。

https://github.com/openai/whisper

![](/media/202310/2023-10-28_131103&vZn6UPrtsgYL5HXlTCQJ.png)

### 安装方法
```
pip install -U openai-whisper
# 会自动安装一些依赖，如numpy、torch、tqdm、tiktoken等等
```
检查是否安装了ffmpeg，`ffmpeg`
![](/media/202310/2023-10-28_131745&EKDWmxQyIek82XSjOdsp.png)
测试whisper是否成功按照，`whisper`
![](/media/202310/2023-10-28_131537&3mHZWBdhsqSv4anPA0UJ.png)

### 运行速度
为应对不同的语音转录需求，Whipser 推出了 tiny、base、small、medium、large 5 个档次的模型。

转录效果依次增加，但相应花费的时间也会增加。
![](/media/202310/2023-10-28_112633&qDE5sKmBnJPrO2ekZMdw.png)

### 使用方法
Whisper 使用了 Python 开发，安装后，在文件所在目录打开终端，运行 whisper audio.mp3 即可进行转录。

想要自定义设置的话，则可以在后面追加命令参数，具体包括：

whisper audio.mp3 --命令参数
![](/media/202310/2023-10-28_112712&CJv87lzoSTgEnmjcHBhs.png)
```
--task
指定转录方式，默认使用 --task transcribe 转录模式，--task translate 则为翻译模式，目前只支持英文。

--model
指定使用模型，默认使用 --model small，Whisper 还有英文专用模型，就是在名称后加上 .en，这样速度更快。

--language
指定转录语言，默认会截取 30 秒来判断语种，但最好指定为某种语言，比如指定中文是 --language Chinese。

--device
指定硬件加速，默认使用 auto 自动选择，--device cuda 则为显卡，cpu 就是 CPU， mps 为苹果 M1 芯片。
```