唠嗑几句
RVC变声器,其实想玩很久了,一直没玩,今天捣鼓了一下,快速上手了一下,效果确实令人惊讶,但是由于我这是快速上手,我并没有搞懂它的一些参数配置,只是大概去了解的一下,所以文章可能会存在错误,如果你觉得是错误,你可以注册博客然后在此留下评论~
功能介绍
RVC(Retrieval-based-Voice-Conversion-WebUI)是花儿不哭大佬开发的一个简单易用的变声框架,说到底就是大老爷门也能拥有甜妹的声音,同时它还支持自己训练变声模型,这个具体我没尝试,因为我觉得太费时间太麻烦了,当然只是我觉得麻烦,其实大佬已经做成一键自动化的效果,难就难在数据集的准备了,还有模型的调优?这些我目前都还不大懂。
你还可以找找一些免费别人训练好的模型,或者花钱买别人训练的不错的模型,这些就看你自己啦,自己跑训练也行~
资源汇总
作者B站首页:花儿不哭
Github项目地址:Retrieval-based-Voice-Conversion-WebUI
Voicemeeter虚拟声卡【必装】:https://xhxz.lanzouq.com/io6qS2cmrrri 密码:dx1s
下载官方整合包
我在下官方整合包的时候,我踩了个大坑,我打开github仓库点进了Releases
然后呢我就看到了一个huggingface
的链接,我就点进去开下了,下完运行之后,才发现这不是一个新版本,最新版本在百度网盘地址里更新了,所以你可以点击上面的链接直达网盘,或者看我接下来的截图教程,我建议还是去官方Github看看。
快速上手
安装虚拟声卡
Voicemeeter虚拟声卡【必装】:https://xhxz.lanzouq.com/io6qS2cmrrri 密码:dx1s
配置虚拟声卡
安装好后,你可以在开始菜单找到,你可以右键 -> 更多 -> 打开文件位置,把快捷图标复制到桌面上
至此就配置好了,就这么简单~
启动变声器
不解压你怎么用,所以你肯定得先解压,解压后如图
我们这里直接双击【go-realtime-gui.bat】启动变声器
使用变声器
官方提供了几个模型供大家体验,我今天试了试kikiV1模型效果挺好的,我们就以这个为例
加载模型,点击按钮【选择pth】选择目录下的文件夹assets->weights->kikiV1.pth 一般点了按钮后会直接就在weights目录下直接选模型就行
加载音色模型,好像是叫音色模型吧?点击按钮【选择index文件】logs->kikiV1.index 一般点了按钮后会直接就在logs目录下直接选模型,不在你就自己选一下目录呗
设备类型选择MME、输入设备选择你的麦克风,输出设备选择虚拟声卡VoiceMeeter Input (VB-Audio Voi,选择【使用设备采样率】
常规设置一般不用动(看我参数说明),直接点击【开始音频转换】然后说话,就能听到效果啦,注意虚拟声卡要打开哦。
如果你觉得效果并不怎么好,请查看下面的参数说明。
虚拟声卡操作说明
这里的>A >B 就是两个开关,这里其实一般关着就行了,因为一般肯定是让别人听到你变化后的声音
>A 开的时候,你就可以听到自己原本的声音,关掉就听不到了
>B 开的时候,别人就能听到你原本的声音,关掉就听不到了
这里的>A >B与上面是同理的,这一块是用来控制变声输出的,如果你想听到自己变化的声音那就把>A打开,不想听到就关掉就行了,如果你想让别人听到你的变声就把>B打开就行
>A开的时候,你可以听到自己变声后的剩余
>B开的时候,别人就能听到你变化的声音
如何在微信通话时用?其它软件内怎么使用?
【第一种方式】微信在通话的时候是可以选择麦克风的,直接选虚拟声卡就行,这是第一种方式,适用于在软件内支持选择麦克风的
【第二种方式】适用于其它软件
打开设置->声音设置
打开【应用音量和设备首选项】
这种方式适用不可在软件内自行切换麦克风的
参数说明
因为是快速上手,我对这些参数并不了解,有错误很正常哈,我只是把我了解到的写在这里当作笔记。
【设备类型】建议直接MME(据说是延迟低)
【音频设备】推荐选择“使用设备采样率”
【响应阈值】一般是-60
【音调设置】如果说是“男生变女生的话调到正12”,如果是“女变男的话调到-12”,男变男,女变女,设置0即可
【性别因子】这是针对声音的粗细做调整的,如果你的声音特别细的话可以往左边拉点,如果你的声音比较粗的话可以往右边拉一点
【检索特征】这个具体效果不知,如果你的显卡是40系或以上可以尝试一下,40系不建议调整
【响度因子】我一般就不调觉得挺好的,如果你要调可以设置在0.6 到 0.7 区间试试,这个也不知道具体效果
【采样长度】这个跟延迟有关,如果你调的越低延迟越低,越容易出现卡顿的情况,根据自己性能情况来调吧,多尝试一下
【进程数】我直接不管,不知道是做什么用的
【淡入淡出长度】我直接拉满的,据说是参数越低声音就会越清晰,咬字也会越清楚,拉高的话声音就会比较连贯,但是声音会有点糊?
【额外推理时长】这个好像跟流推理有关,我设置的是3.00,具体未知
输入降噪,输出降噪,建议是不开,据说会吞字,根据自己的实际情况来判断吧,存在肯定是有用的
自此就这些了,首先我还要说明,我是快速上手,所以我对这些并不是很了解~~~~~~~~终于写完了!至少写了我一个小时,我看能不能提升自己做笔记的速度....