Emu2：智源研究院开源发布的新一代生成式多模态基础模型

AI视频
9月27日
编辑

admin

2023年12月21日，智源研究院发布了新一代多模态基础模型 Emu2。Emu2通过大规模自回归生成式多模态预训练，显著推动了多模态上下文学习能力的突破。

Emu2在少样本多模态理解任务上表现出色，超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多个少样本理解、视觉问答、主体驱动图像生成任务上，Emu2取得了最优性能。

Emu2是目前最大的开源生成式多模态模型，基于 Emu2微调的 Emu2-Chat 和 Emu2-Gen 模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。

Emu2使用了更简单的建模框架，并训练了从编码器语义空间重建图像的解码器，将模型规模化到37B 参数。Emu2采用大量图、文、视频的序列，建立了基于统一自回归建模的多模态预训练框架，将图像、视频等模态的 token 序列直接和文本 token 序列交错在一起输入到模型中训练。

通过对多模态理解和生成能力的评测，Emu2在少样本理解、视觉问答、主体驱动图像生成等任务上取得了最优性能。在16-shot TextVQA 等场景下，Emu2相较于 Flamingo-80B 超过12.7个点。在 DreamBench 主体驱动图像生成测试上，Emu2比之前的方法取得了显著提升。

Emu2具备全面且强大的多模态上下文学习能力，可以照猫画虎地完成多种理解和生成任务。Emu2-Chat 经过对话数据指令微调，可以精准理解图文指令，完成多模态理解任务。Emu2-Gen 可以接受任意 prompt 序列作为输入，生成高质量的图像和视频。

Emu2的训练方法是在多模态序列中进行生成式预训练，使用统一的自回归建模方式。相比于 Emu1，Emu2采用了更简单的建模框架，训练了更好的解码器，并将模型规模化到37B 参数。

项目：https://baaivision.github.io/emu2/
模型：https://huggingface.co/BAAI/Emu2
代码：https://github.com/baaivision/Emu/Emu2
Demo：https://huggingface.co/spaces/BAAI/Emu2
论文：https://arxiv.org/abs/2312.13286

温馨提示：

文章标题：Emu2：智源研究院开源发布的新一代生成式多模态基础模型

文章链接：https://yuntunft.cn/10068.html

更新时间：2024年09月27日

给TA打赏

共{{data.count}}人

人已打赏

Emu2 智源研究院

2023年12月21日，智源研究院发布了新一代多模态基础模型 Emu2。Emu2通过大规模自回归生成式多模态预训练，显著推动了多模态上下文学习能力的突破。 Emu2在少样本多模态理解任务上表现出色，超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多个少样本理解、视觉问答、主体驱动图像生成任务上，Emu2取得了最优性能。 Emu2是目前最大的开源生成式多模态模型，基于 Emu2微调的 Emu2-Chat 和 Emu2-Gen 模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。 Emu2使用了更简单的建模框架，并训练了从编码器语义空间重建图像的解码器，将模型规模化到37B 参数。Emu2采用大量图、文、视频的序列，建立了基于统一自回归建模的多模态预训练框架，将图像、视频等模态的 token 序列直接和文本 token 序列交错在一起输入到模型中训练。通过对多模态理解和生成能力的评测，Emu2在少样本理解、视觉问答、主体驱动图像生成等任务上取得了最优性能。在16-shot TextVQA 等场景下，Emu2相较于 Flamingo-80B 超过12.7个点。在 DreamBench 主体驱动图像生成测试上，Emu2比之前的方法取得了显著提升。 Emu2具备全面且强大的多模态上下文学习能力，可以照猫画虎地完成多种理解和生成任务。Emu2-Chat 经过对话数据指令微调，可以精准理解图文指令，完成多模态理解任务。Emu2-Gen 可以接受任意 prompt 序列作为输入，生成高质量的图像和视频。 Emu2的训练方法是在多模态序列中进行生成式预训练，使用统一的自回归建模方式。相比于 Emu1，Emu2采用了更简单的建模框架，训练了更好的解码器，并将模型规模化到37B 参数。项目：https://baaivision.github.io/emu2/ 模型：https://huggingface.co/BAAI/Emu2 代码：https://github.com/baaivision/Emu/Emu2 Demo：https://huggingface.co/spaces/BAAI/Emu2 论文：https://arxiv.org/abs/2312.13286

7月1日058

花生图像是什么？花生图像是一款专为电商设计的、基于AI的在线图片编辑平台。它提供智能抠图、一键图片翻译、色彩调整、尺寸裁剪、滤镜特效应用等功能，支持多国语言翻译，帮助用户高效处理图片，提升跨境电商运营效率，适用于广告制作、商品展示等多种场景。产品官网：https://www.hsphoto.cn/ 花生图像的主要功能花生图像的主要功能包括：智能抠图：利用AI技术，实现一键式的精准抠图，能够自动区分对象与背景，达到发丝级别的细节处理。图片翻译：将图片中的文本内容识别并翻译成用户所需的多国语言，适合跨境电商和多语言市场的需求。图片编辑器：提供一站式的图片编辑解决方案，包括调整图片色彩、裁剪尺寸、应用各种滤镜和特效，以创造专业级别的视觉效果。智能消除：帮助用户去除图片中的不必要元素，如水印、瑕疵等，使图片更加完美。商品图生成：智能识别商品特征，快速生成符合不同行业和场景需求的商品图片，提供多种风格模板以供选择。花生图像的应用场景花生图像的应用场景主要包括：电商产品展示：为在线商店创建高质量的产品图片，增强商品的视觉吸引力，提升销售潜力。广告和营销材料：制作引人注目的广告图像，用于社交媒体、网站横幅或印刷材料，以提高广告效果。跨境电商：通过图片翻译功能，帮助商家快速适应不同语言的市场，提高国际销售的吸引力。内容创作：为博客、新闻文章或任何在线内容创作提供专业的图片编辑，增强内容的视觉表现力。个人项目：个人用户可以使用花生图像来编辑和优化个人照片，如家庭相册、旅行记忆或社交媒体分享。品牌和标识设计：设计和制作品牌宣传材料，包括徽标、海报和品牌故事的视觉呈现。艺术和创意工作：艺术家和设计师可以利用智能抠图和图片编辑功能，实现复杂的创意视觉项目。社交媒体管理：为社交媒体帖子和故事创建和编辑引人注目的图片，增加用户参与度和品牌曝光。花生图像的产品价格花生图像提供了个人标准版和专业版。个人标准版适合拥有超过20个商品店铺的用户，一年249元；个人专业版则更适合拥有超过30个商品店铺的用户，一年600元。总的来说，花生图像是一款集图片编辑、智能消除、智能翻译和商品图生成于一体的全面升级的图片处理神器。它不仅能够帮助用户轻松打造专业级作品，提升工作效率和商业竞争力，还能为用户的创作和营销工作提供有力支持。

7月2日024

Video Highlight是什么？ Video Highlight是一个利用AI技术的视频摘要和笔记工具，它允许用户快速提取视频关键点，高亮和截图，以及导出笔记。这个工具特别适合研究人员和进行市场分析的用户，帮助他们节省时间，提高分析效率。 Video Highlight官网入口：https://videohighlight.com/ Video Highlight的主要功能视频摘要：使用先进的AI技术从视频中提取关键信息，帮助用户快速把握视频内容的核心要点。笔记与高亮：用户可以在观看视频时进行实时笔记，并对重要部分进行高亮标记，类似于在文本中做标记。时间戳：提供视频内容的时间戳，使用户能够快速定位到视频中的特定片段。截图功能：允许用户在观看过程中截取关键画面，并将截图添加到笔记中，以便回顾和记忆。导出选项：支持将笔记导出到Notion等第三方应用，或连接到Readwise账户，方便用户进行内容整理和后续分析。研究效率提升：特别适用于需要进行大量视频内容分析的研究人员，通过自动化摘要和笔记功能，减少手动转录和分析的时间。 Video Highlight通过这些功能，旨在简化视频内容的理解和记忆过程，使得用户能够更高效地从视频中获取和整理信息。 Video Highlight的应用场景 Video Highlight的应用场景主要集中在需要快速理解和分析视频内容的领域，具体包括：学术研究：研究人员可以利用Video Highlight从讲座、研讨会或教育视频中提取关键信息，加速研究进程。市场分析：市场分析师可以通过该工具快速总结产品演示、市场报告或竞争对手的视频内容，进行市场趋势分析。内容创作：视频创作者和编辑可以使用Video Highlight来审查素材，提取灵感，或为视频制作提供结构化的内容摘要。企业培训：企业可以使用该工具来总结培训视频，为员工提供易于消化的学习材料。新闻报道：新闻工作者可以利用Video Highlight来快速获取新闻视频的关键信息，提高报道效率。社交媒体监控：品牌和公关团队可以监控社交媒体上的视频内容，通过Video Highlight快速了解公众对品牌或事件的反应。法律和合规：法律专业人士可以利用该工具从视频证据中提取重要信息，辅助案件分析。 Video Highlight通过其高效的视频内容处理能力，为这些场景提供了一个便捷的工具，帮助用户节省时间，专注于内容的深入分析和应用。如何使用Video Highlight？使用Video Highlight的基本步骤如下：访问网站：首先，访问Video Highlight的官方网站。登录或注册：如果已经有账户，登录您的账户；如果没有，您可能需要注册一个新账户。粘贴视频链接：在提供的输入框中，粘贴您想要分析的YouTube视频的URL。开始分析：点击相应的按钮开始让Video Highlight分析视频内容。查看摘要：分析完成后，Video Highlight会提供视频内容的摘要，您可以查看关键点和重要信息。做笔记和高亮：在观看视频的同时，您可以在提供的时间线上做笔记和高亮标记。截图和导出：如果需要，您可以添加截图到您的笔记中，并选择将笔记导出到Notion或其他支持的平台。保存和分享：您可以保存您的笔记和摘要，以便日后参考，也可以分享给其他人。

7月2日045

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部