最近有个超酷的项目,叫GPT-SoVITS,简直就像是科幻小说里的技术一样!这个东西能做的事情,听着都有点不可思议——给它一分钟的声音录音,它就能克隆出来那个人的声音。是的,你没听错,只需要一分钟。
我刚开始也是半信半疑的,但是这个项目已经在GitHub上火了,拿到了超过16.5k的星星。而且,不仅仅是汉语,它还能处理英语和日语的声音转换。
独特之处
GPT-SoVITS的独特之处在于其惊人的效率和高质量的输出。传统的声音克隆技术往往需要大量的语音数据和复杂的训练过程,而GPT-SoVITS打破了这一局限,仅需短短一分钟的录音就能训练出一个声音模型,这使得个人用户和小型开发团队也能轻松入门并实现声音克隆。
功能特色
- 零样本文本到语音(TTS):就是说,哪怕只有5秒钟的声音样本,它也能帮你转换文本到语音。
- 少样本TTS:如果你能提供1分钟的声音样本给它,它就能更好地学习,让克隆出来的声音更加真实、更加像原声。
- 跨语言能力:这个功能也很赞,意味着它能帮你把英语、日语和中文文本都转换成那个克隆的声音。
- 超友好的WebUI工具:这个对于像我这样的技术小白来说太重要了,有了这些工具,我们也能玩转声音克隆了。
测试环境
GPT-SoVITS已在多个环境下通过测试,包括不同版本的Python、PyTorch和CUDA,甚至支持在macOS上运行,这一点对于使用Apple芯片的Mac用户来说尤其重要。
快速部署
Windows
如果你是 Windows 用户(已在 win>=10 上测试),可以直接下载预打包文件,解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。
Linux
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh
macOS
只有符合以下条件的 Mac 可以训练模型:
- 搭载 Apple 芯片的 Mac
- 运行macOS 12.3 或更高版本
- 已通过运行
xcode-select --install
安装 Xcode command-line tools
所有 Mac 都可使用 CPU 进行推理,且已测试性能优于 GPU。
首先确保你已通过运行 brew install ffmpeg
或 conda install ffmpeg
安装 FFmpeg,然后运行以下命令安装:
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
pip install -r requirements.txt
pip3 install –pre torch torchaudio –index-url https://download.pytorch.org/whl/nightly/cpu
pip install -r requirements.txt
注:只有安装了Pytorch Nightly才可训练模型。
实际应用
这个项目的用途真的很广泛。想要模仿明星的声音做个搞笑视频?或者制作一个个性化的语音助手?GPT-SoVITS都能帮你实现。
结语
GPT-SoVITS真的给我们展示了声音合成技术的一个全新境界。随着技术的进步,我相信将来我们在声音合成领域还会看到更多令人兴奋的突破。真是太期待了!
×
直达下载
温馨提示: