5秒克隆你的声音-Real-Time-Voice-Cloning项目学习

# 导读
要精准模仿（克隆）某人的声音的技术源头似乎都来自谷歌2017年发布的论文SV2TTS[[1]](https://arxiv.org/pdf/1806.04558.pdf)，大概说的意思就是把克隆工作分成三个模块（Encoder、Synthesizer、Vocoder），先提取说话者的声音提取音色向量（Speaker Encoder部分），然后用这部分内容加上Synthesizer和Vocoder一起完成语音合成。整个技术细节又涉及Tacotron、WaveNet，又有好多论文，已经看晕了，且按下不表。
![](/media/202204/2022-04-13_120324_438585.png)

所以，只需要一小段5秒的录音，就能将其他的文字转换成你的声音。[Real-Time-Voice-Cloning](https://github.com/CorentinJ/Real-Time-Voice-Cloning) 该项目在git上以及接近34.3k Star了，作者将克隆后的效果已经上传到[youtube演示视频](https://www.youtube.com/watch?v=-O_hYhToKoA&skip_registered_account_check=true)。但是，这个项目只支持英文。

再但是，近期从这个项目中发展了一个中文的分支Realtime-Voice-Clone-Chinese，如今改名为[MockingBird](https://github.com/babysor/MockingBird) 了。作者已经在效果上传到了[bilibili演示视频](https://www.bilibili.com/video/BV17Q4y1B7mY/)
![](/media/202204/2022-04-13_110036_775778.png)

下面我们从安装开始，学习如何在我们自己电脑上使用这个项目。

# 安装
## 特性
来自： https://github.com/babysor/MockingBird/blob/main/README-CN.md
🌍 **中文** 支持普通话并使用多种中文数据集进行测试：aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等

🤩 **PyTorch** 适用于 pytorch，已在 1.9.0 版本（最新于 2021 年 8 月）中测试，GPU Tesla T4 和 GTX 2060

🌍 **Windows + Linux** 可在 Windows 操作系统和 linux 操作系统中运行（苹果系统M1版也有社区成功运行案例）

🤩 **Easy & Awesome** 仅需下载或新训练合成器（synthesizer）就有良好效果，复用预训练的编码器/声码器，或实时的HiFi-GAN作为vocoder

🌍 **Webserver Ready** 可伺服你的训练结果，供远程调用

## 运行环境（测试时）
- 系统：Windows、Linux（Windows）
- Python版本：3.7+ (Python 3.7.7)
- pytorch版本：1.9.0 (torch==1.11.0 torchvision==0.12.0)
- FFmpeg
- GPU：可有可无

## 环境配置
- clone项目
`git clone https://github.com/babysor/MockingBird.git`
`cd MockingBird`
- 安装pytorch，依据[官方文档](https://pytorch.org/get-started/locally)，选择系统合适的安装（以前安装了1.11.0版）
- 安装项目所需要的库
`pip install -r requirements.txt`
- 安装webrtcvad
`pip install webrtcvad-wheels`
- 安装[ffmpeg](https://ffmpeg.org/download.html#get-packages)，依据系统选择合适版本ffmpeg进行安装

## 测试效果
- 下载预训练模型
[百度网盘](https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ), 提取码:2021
这里大家只需要下载synthesizer文件夹就行了，节省时间。其它的两个模型已经在项目里面了，下载好后将saved_models目录放到synthesizer目录下
- 启动工具箱
`python demo_toolbox.py --cpu # 有gpu可以不用加参数--cpu`
![](/media/202204/2022-04-13_112611_415531.png)
> d始终出不来界面，似乎哪里有问题

- 启用Web程序
MockingBird在本地提供了一个B/S使用环境，运行web.py用浏览器访问本地8080端口看看先：
`python web.py`，运行成功后，浏览器打开默认地址：http://localhost:8080
![](/media/202204/2022-04-13_115142_122531.png)

- 运行demo_toolbox
`python demo_toolbox.py`

![](/media/202204/2022-04-13_144356_949625.png)
![](/media/202204/2022-04-13_143758_970166.png)

Encoder/Synthesizer/Vocoder分别是编码器、合成器和解码器，放到synthesizer目录下的saved_models有ceshi和mandarin两种，可以在这儿合成器看到
![](/media/202204/2022-04-13_143935_734587.png)

## 启动后的常见问题
### 报错如下图
![](/media/202204/2022-04-13_144036_779982.png)
**解决方案**：现在如果想用最新的代码，并使用社区已经分享的cechi、mandarin等预训练模型，可以将文件 synthesizer\hparams.py 中的: use_gst use_ser_for_gst 均设置为False，部分在2021年10月10至2021年10月25分享的模型，仅需将 use_ser_for_gst 设置为False，即可正常使用。
### 跑成功了，但是只有一两秒的杂音
**解决方案**：把文件中：synthesizer/utils/symbols.py 第11行的内容 改为：`_characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz12340!\'(),-.:;? '`即可。
### 使用Vocoder为Griffin-Lim出现如下报错
```shell
Traceback (most recent call last):
  File "F:\19.usefulStudyProjs\RealtimeVoiceCloneCN\MockingBird\toolbox\__init__.py", line 143, in <lambda>
    func = lambda: self.synthesize() or self.vocode()
  File "F:\19.usefulStudyProjs\RealtimeVoiceCloneCN\MockingBird\toolbox\__init__.py", line 304, in vocode
    breaks = [np.zeros(int(0.15 * sample_rate))] * len(breaks)
UnboundLocalError: local variable 'sample_rate' referenced before assignment
```
**解决方案**：