python爬虫项目
MTG卡片价格爬取
cninfo信息爬取
汽车之家数据爬取
5秒克隆你的声音-Real-Time-Voice-Cloning项目学习
js逆向案例-dy之X-Bogus/signature算法分析【转】
pyinstaller打包exe免杀和逆向浅析
【实用】从一个exe到pyc文件的实操-逆向
B站直播弹幕协议详解
快手API发布作品
Tiktok直播间弹幕获取
spider之字体css解密和RSA解密
requests报错问题
Requests被网站识别咋办?使用curl_cffi,支持原生模拟浏览器TLS/JA3指纹的 Python 库
【实用技巧】使用Byteasy进行手抓
本文档使用 MrDoc 发布
-
+
up
down
首页
5秒克隆你的声音-Real-Time-Voice-Cloning项目学习
# 导读 要精准模仿(克隆)某人的声音的技术源头似乎都来自谷歌2017年发布的论文SV2TTS[[1]](https://arxiv.org/pdf/1806.04558.pdf),大概说的意思就是把克隆工作分成三个模块(Encoder、Synthesizer、Vocoder),先提取说话者的声音提取音色向量(Speaker Encoder部分),然后用这部分内容加上Synthesizer和Vocoder一起完成语音合成。整个技术细节又涉及Tacotron、WaveNet,又有好多论文,已经看晕了,且按下不表。  所以,只需要一小段5秒的录音,就能将其他的文字转换成你的声音。[Real-Time-Voice-Cloning](https://github.com/CorentinJ/Real-Time-Voice-Cloning) 该项目在git上以及接近34.3k Star了,作者将克隆后的效果已经上传到[youtube演示视频](https://www.youtube.com/watch?v=-O_hYhToKoA&skip_registered_account_check=true)。但是,这个项目只支持英文。 再但是,近期从这个项目中发展了一个中文的分支Realtime-Voice-Clone-Chinese,如今改名为[MockingBird](https://github.com/babysor/MockingBird) 了。作者已经在效果上传到了[bilibili演示视频](https://www.bilibili.com/video/BV17Q4y1B7mY/)  下面我们从安装开始,学习如何在我们自己电脑上使用这个项目。 # 安装 ## 特性 来自: https://github.com/babysor/MockingBird/blob/main/README-CN.md 🌍 **中文** 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等 🤩 **PyTorch** 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060 🌍 **Windows + Linux** 可在 Windows 操作系统和 linux 操作系统中运行(苹果系统M1版也有社区成功运行案例) 🤩 **Easy & Awesome** 仅需下载或新训练合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder 🌍 **Webserver Ready** 可伺服你的训练结果,供远程调用 ## 运行环境(测试时) - 系统:Windows、Linux(Windows) - Python版本:3.7+ (Python 3.7.7) - pytorch版本:1.9.0 (torch==1.11.0 torchvision==0.12.0) - FFmpeg - GPU:可有可无 ## 环境配置 - clone项目 `git clone https://github.com/babysor/MockingBird.git` `cd MockingBird` - 安装pytorch,依据[官方文档](https://pytorch.org/get-started/locally),选择系统合适的安装(以前安装了1.11.0版) - 安装项目所需要的库 `pip install -r requirements.txt` - 安装webrtcvad `pip install webrtcvad-wheels` - 安装[ffmpeg](https://ffmpeg.org/download.html#get-packages),依据系统选择合适版本ffmpeg进行安装 ## 测试效果 - 下载预训练模型 [百度网盘](https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ), 提取码:2021 这里大家只需要下载synthesizer文件夹就行了,节省时间。其它的两个模型已经在项目里面了,下载好后将saved_models目录放到synthesizer目录下 - 启动工具箱 `python demo_toolbox.py --cpu # 有gpu可以不用加参数--cpu`  > d始终出不来界面,似乎哪里有问题 - 启用Web程序 MockingBird在本地提供了一个B/S使用环境,运行web.py用浏览器访问本地8080端口看看先: `python web.py`,运行成功后,浏览器打开默认地址:http://localhost:8080  - 运行demo_toolbox `python demo_toolbox.py`   Encoder/Synthesizer/Vocoder分别是编码器、合成器和解码器,放到synthesizer目录下的saved_models有ceshi和mandarin两种,可以在这儿合成器看到  ## 启动后的常见问题 ### 报错如下图  **解决方案**:现在如果想用最新的代码,并使用社区已经分享的cechi、mandarin等预训练模型,可以将文件 synthesizer\hparams.py 中的: use_gst use_ser_for_gst 均设置为False,部分在2021年10月10至2021年10月25分享的模型,仅需将 use_ser_for_gst 设置为False,即可正常使用。 ### 跑成功了,但是只有一两秒的杂音 **解决方案**:把文件中:synthesizer/utils/symbols.py 第11行的内容 改为:`_characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz12340!\'(),-.:;? '`即可。 ### 使用Vocoder为Griffin-Lim出现如下报错 ```shell Traceback (most recent call last): File "F:\19.usefulStudyProjs\RealtimeVoiceCloneCN\MockingBird\toolbox\__init__.py", line 143, in <lambda> func = lambda: self.synthesize() or self.vocode() File "F:\19.usefulStudyProjs\RealtimeVoiceCloneCN\MockingBird\toolbox\__init__.py", line 304, in vocode breaks = [np.zeros(int(0.15 * sample_rate))] * len(breaks) UnboundLocalError: local variable 'sample_rate' referenced before assignment ``` **解决方案**:
laihui126
2022年4月13日 16:24
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅道文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅道文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅道文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
下载Markdown文件
分享
链接
类型
密码
更新密码