Audiobox-Meta推出的新一代音频生成模型

AI视频
24年9月29日
编辑

admin

Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。

Audiobox是Voicebox的继任者，进一步推动了音频生成领域的发展。与Voicebox相比，Audiobox具有更强大的可控性，用户可以使用文本描述提示来指定语音和音效的风格，这是Voicebox不支持的功能。通过同时使用语音输入和文本提示，用户可以实现自由形式的语音重塑，这在当前的模型中尚属首次。

这款模型的独特之处在于，它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如，如果有人想要生成一片音景，他们可以给模型一个文本提示，如“一条奔流的河流和鸟儿的鸣叫”。

Audiobox不仅在语音生成方面表现出色，还在音效生成方面表现出色。经过内部测试，Audiobox在质量和相关性方面明显超过先前的最佳模型，并在主观评估中以超过30%的样式相似性优势击败了Voicebox。

为了促进领域的发展并确保研究的负责任性，Meta计划邀请研究人员和学术机构申请资金，用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切，强调了与研究社区合作的重要性。

Audiobox的推出标志着音频生成领域的一项重要进展，Meta希望通过这一创新降低音频创作的门槛，使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响，为未来的音频创作开辟了新的可能性。

了解更多信息：https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

温馨提示：

文章标题：Audiobox-Meta推出的新一代音频生成模型

文章链接：https://yuntunft.cn/10750.html

更新时间：2024年09月29日

给TA打赏

共{{data.count}}人

人已打赏

Audiobox Meta 音频生成模型

Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。 Audiobox是Voicebox的继任者，进一步推动了音频生成领域的发展。与Voicebox相比，Audiobox具有更强大的可控性，用户可以使用文本描述提示来指定语音和音效的风格，这是Voicebox不支持的功能。通过同时使用语音输入和文本提示，用户可以实现自由形式的语音重塑，这在当前的模型中尚属首次。这款模型的独特之处在于，它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如，如果有人想要生成一片音景，他们可以给模型一个文本提示，如“一条奔流的河流和鸟儿的鸣叫”。 Audiobox不仅在语音生成方面表现出色，还在音效生成方面表现出色。经过内部测试，Audiobox在质量和相关性方面明显超过先前的最佳模型，并在主观评估中以超过30%的样式相似性优势击败了Voicebox。为了促进领域的发展并确保研究的负责任性，Meta计划邀请研究人员和学术机构申请资金，用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切，强调了与研究社区合作的重要性。 Audiobox的推出标志着音频生成领域的一项重要进展，Meta希望通过这一创新降低音频创作的门槛，使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响，为未来的音频创作开辟了新的可能性。了解更多信息：https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/

24年7月2日019

周二，Meta 宣布推出 SeamlessM4T，一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络，它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译，支持「最多 100 种语言」，Meta 表示，它的目标是帮助说不同语言的人更有效地交流。继续 Meta 相对开放的人工智能方法，它正在以研究许可（CC BY-NC 4.0）的形式发布 SeamlessM4T，允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign，Meta 称之为「迄今最大的开放式多模式翻译数据集，总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。在 Meta 的博客中宣传的 SeamlessM4T 的特性中，该公司表示该模型能够执行语音识别（将语音转换为文本）、语音到文本翻译（将口语音频翻译为不同语言的文本）、语音到语音翻译（提供语音，输出翻译后的语音）以及文本到文本翻译（类似于 Google 翻译的功能）和文本到语音翻译（提供文本，将其翻译并以另一种语言呈现出来）。每个文本翻译功能支持将近 100 种语言，语音输出功能支持大约 36 种输出语言。在 SeamlessM4T 的公告中，Meta 提到了 Babel Fish，一种虚构的鱼，来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》，它可以立即翻译任何口头语言：构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的，因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信，我们今天宣布的工作在这一旅程中是向前迈出的重要一步。它们是如何训练的？根据 Seamless4MT 研究报告，Meta 的研究人员「创建了一个多模式语料库，其中含有自动对齐的超过 470,000 个小时的语音翻译，称为 SeamlessAlign」（在前面已经提及）。然后，他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选，总计 406,000 个小时」。与往常一样，Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」（从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成，由专业人员翻译）。根据研究论文，SeamlessM4T 的语音数据来自「400 万小时的原始音频，来源于一个公开可用的网络数据库」，其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。 Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术，大型语言模型（如 GPT-4）以其在语言之间的翻译能力而闻名。但是，在音频处理方面，最近这项技术变得非常热门。在九月份，OpenAI 发布了自己的开源语音到文本翻译模型，名为 Whisper，它可以在音频中识别语音并将其翻译成文本。 SeamlessM4T 扩展了多语言翻译的趋势，并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上（类似于 Meta 之前的一些音频处理技术）——减少了错误，增加了翻译的效率。关于 SeamlessM4T 如何运作的更多技术细节可以在 Meta 的网站上获得，其代码和权重（实际训练的神经网络文件）可以在 Hugging Face 上找到。

24年7月1日056

Meta AI助手是什么 Meta AI是一款由Meta公司最新推出的基于先进的Llama 3模型的免费AI智能助手。它被设计用于Meta旗下的多个社交平台，包括Facebook、Instagram、WhatsApp和Messenger，以及通过网页版Meta.ai访问。Meta AI旨在通过自然语言处理技术，为用户提供信息检索、知识学习、内容创造和社交互动等功能。 Meta AI助手的主要功能智能对话：Meta AI能够理解和处理自然语言，与用户进行流畅的对话交互。搜索集成：在社交平台内整合搜索功能，提供来自Bing和Google的实时搜索结果。图像生成：具备“Imagine”功能，可以根据文本描述快速生成高质量的图像。动画和GIF制作：能够将静态图像转换成动画或GIF，增加内容的动态效果。个性化推荐：根据用户的喜好和需求提供个性化的建议，如餐厅推荐或周末度假计划。学习和教育：帮助用户解答学术问题，如解释遗传特征等。创意激发：通过生成灵感图片，协助用户在装饰、服装搭配等方面的创意思考。多平台可用性：除了社交平台和网页版，Meta AI还可在智能眼镜和Meta Quest头显设备上使用。如何使用Meta AI助手？ Meta AI助手目前已经在澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦等十几个国家/地区推出，后续会扩展到更多国家和地区。官网访问：访问Meta AI助手的官方网站Meta.ai。输入问题：在网站的底部输入框中输入你想要询问的问题或主题。无需登录使用：你可以不登录直接使用Meta AI，但如果需要保存对话历史和生成图片，则需要登录Facebook账户。创建新对话：用户还可以点击“New conversation”来开始一个新的对话或主题讨论。 AI绘画功能：用户可以点击“Imagine”进行AI绘画创作，但此功能需要登录账户。 Meta AI的推出，标志着Meta在AI领域的进一步扩展，同时也为用户提供了一个多功能的智能助手，以增强其在社交平台上的互动体验。

24年7月2日022

LAVE是什么？ LAVE是一个由Meta发布的全新AI自动视频剪辑工具，通过自然语言交互和语言增强功能，帮助用户简化视频编辑流程。它结合了视频画廊、编辑时间线和对话代理，支持创意头脑风暴、视频检索、故事板制作和剪辑修剪等功能。用户研究显示，LAVE能有效提升视频编辑效率和创造力，同时强调了未来系统设计需考虑用户多样性和适应性，以及潜在的偏见问题。 LAVE可以做什么？ LAVE的主要功能包括：语言增强视频画廊：自动为用户的视频生成语言描述，包括视频的标题和摘要，帮助用户快速理解视频内容，无需播放视频即可预览。视频编辑时间线：允许用户通过拖放操作来排序和修剪视频剪辑，同时支持LLM辅助的剪辑排序和修剪功能。视频编辑代理：通过对话界面，用户可以与LLM代理进行交流，代理根据用户的编辑目标规划并执行相关动作，如故事板制作、视频检索等。故事板制作：代理可以根据用户提供的叙事或自动生成叙事，帮助用户将视频剪辑按顺序排列，形成连贯的故事线。视频检索：用户可以通过自然语言查询来搜索和检索与特定主题或活动相关的视频。创意头脑风暴：代理协助用户基于已有视频内容生成视频编辑创意，激发用户的创造力。剪辑修剪：用户可以通过输入自然语言命令来精确修剪视频片段，LLM会根据命令和视频内容自动确定剪辑的开始和结束点。这些功能共同构成了LAVE的核心，旨在通过LLM的智能辅助，降低视频编辑的技术门槛，提高编辑效率，并增强用户的创作体验。如何使用LAVE？ LAVE目前发布了论文，具体产品暂未公布，欢迎扫码下面二维码，关注AIHub公众号，第一时间获取最新上线通知。论文地址：https://arxiv.org/pdf/2402.10294.pdf

24年7月2日023

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部