Bark是由Suno开发的一款基于变压器的全新文本到音频模型,不仅支持多种语言的高度真实语音生成,还能创造音乐、背景噪音以及简单的音效等多种音频。此外,Bark还能表达非语言的沟通方式,如笑声、叹息和哭泣声,提供了预训练模型的使用权,支持商业用途。
1. Bark的功能和特性
- 多语言支持:Bark能够识别并生成包括英语、德语、法语等多种语言的音频。
- 声音和音乐生成:不限于语音,Bark可以根据文本提示生成歌曲或其他声音效果。
- 情感和音调控制:能够模拟不同情绪的声音表达,如欢笑或叹息。
2. 安装与使用
安装Bark非常简单,推荐通过Git进行安装以确保获取最新版本:
git clone https://github.com/suno-ai/bark
cd bark && pip install .
另外,Bark也支持在🤗Transformers库中使用,安装后即可轻松生成音频样本:
pip install git+https://github.com/huggingface/transformers.git
3. 实际应用
通过Python代码,您可以快速生成语音或音频样本:
from transformers import AutoProcessor, BarkModel
processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")
voice_preset = "v2/en_speaker_6"
inputs = processor("Hello, my dog is cute", voice_preset=voice_preset)
audio_array = model.generate(**inputs)
processor = AutoProcessor.from_pretrained(“suno/bark”)
model = BarkModel.from_pretrained(“suno/bark”)
voice_preset = “v2/en_speaker_6”
inputs = processor(“Hello, my dog is cute”, voice_preset=voice_preset)
audio_array = model.generate(**inputs)
生成的音频可以在Jupyter笔记本中播放或保存为.wav文件。
Bark模型的生成有时可能会与文本提示不完全一致,这是因为它采用了GPT风格的自由生成机制,可能会有更高的变化性。在实际测试中,Bark生成的声音既自然又富有表现力,即使是复杂的音频场景也能处理得很好,这在以往的文本到语音模型中是很难见到的。
×
直达下载
温馨提示: