当前位置：首页AI视频Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。 Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息，指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试，Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力，具有广泛的应用空间。开源地址：https://github.com/Yuliang-Liu/Monkey 论文地址：https://arxiv.org/abs/2311.06607v1 在线体验demo：http://27.17.184.224:7680/ Monkey 的训练数据集质量是其能力提升的关键，研究人员生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，并将不同模型的输出融合起来，提升了大模型对图像细节的理解能力。在模型选择方面，Monkey 采用了开源模型 Qwen-VL 作为语言解码器，以及20亿参数的 ViT-BigHuge 作为视觉编码器，避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。 Monkey 在16个不同的数据集上进行了全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上，Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上，Monkey 在 TextCaps 数据集上也表现出色，证明了其对图片中文本元素的多模态理解能力。在文档导向问答任务上，Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示，Monkey 在医学影像、卫星图像等领域具有广泛的应用空间，并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。综上所述，Monkey 是一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，具有高效率和广泛的应用空间。通过在多个数据集上进行测试，Monkey 在多模态任务上取得了出色的成绩，展现了超强的视觉信息感知和场景理解能力。未来，Monkey 将继续优化模型的感知、联想、推理和泛化能力，进一步提升其在各领域的应用价值。

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。 Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息，指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试，Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力，具有广泛的应用空间。开源地址：https://github.com/Yuliang-Liu/Monkey 论文地址：https://arxiv.org/abs/2311.06607v1 在线体验demo：http://27.17.184.224:7680/ Monkey 的训练数据集质量是其能力提升的关键，研究人员生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，并将不同模型的输出融合起来，提升了大模型对图像细节的理解能力。在模型选择方面，Monkey 采用了开源模型 Qwen-VL 作为语言解码器，以及20亿参数的 ViT-BigHuge 作为视觉编码器，避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。 Monkey 在16个不同的数据集上进行了全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上，Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上，Monkey 在 TextCaps 数据集上也表现出色，证明了其对图片中文本元素的多模态理解能力。在文档导向问答任务上，Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示，Monkey 在医学影像、卫星图像等领域具有广泛的应用空间，并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。综上所述，Monkey 是一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，具有高效率和广泛的应用空间。通过在多个数据集上进行测试，Monkey 在多模态任务上取得了出色的成绩，展现了超强的视觉信息感知和场景理解能力。未来，Monkey 将继续优化模型的感知、联想、推理和泛化能力，进一步提升其在各领域的应用价值。

AI视频
24年7月2日
编辑

admin

Monkey：华中科技大学开源的多模态大模型

温馨提示：

文章标题：Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。 Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息，指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试，Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力，具有广泛的应用空间。开源地址：https://github.com/Yuliang-Liu/Monkey 论文地址：https://arxiv.org/abs/2311.06607v1 在线体验demo：http://27.17.184.224:7680/ Monkey 的训练数据集质量是其能力提升的关键，研究人员生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，并将不同模型的输出融合起来，提升了大模型对图像细节的理解能力。在模型选择方面，Monkey 采用了开源模型 Qwen-VL 作为语言解码器，以及20亿参数的 ViT-BigHuge 作为视觉编码器，避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。 Monkey 在16个不同的数据集上进行了全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上，Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上，Monkey 在 TextCaps 数据集上也表现出色，证明了其对图片中文本元素的多模态理解能力。在文档导向问答任务上，Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示，Monkey 在医学影像、卫星图像等领域具有广泛的应用空间，并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。综上所述，Monkey 是一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，具有高效率和广泛的应用空间。通过在多个数据集上进行测试，Monkey 在多模态任务上取得了出色的成绩，展现了超强的视觉信息感知和场景理解能力。未来，Monkey 将继续优化模型的感知、联想、推理和泛化能力，进一步提升其在各领域的应用价值。

文章链接：https://yuntunft.cn/49379.html

更新时间：2024年07月02日

给TA打赏

共{{data.count}}人

人已打赏

Monkey 华中科技大学多模态大模型

Google Gemini是什么？ AIHub 12 月 6 日消息，谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态大模型Gemini。意味着它可以理解、操作和结合不同类型的信息，包括文本、代码、音频、图像和视频。根据谷歌给出的基准测试结果，Gemini 在许多测试中都表现出了「最先进的性能」，甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。 Google官方介绍视频 Google Gemini有什么？谷歌针对不同场景发布了三种不同版本：Gemini Ultra、Gemini Pro 和 Gemini Nano。这些不同的版本也将适用于不同的场景和案例： Gemini Ultra - 用于处理高度复杂任务的最强、最大的模型。 Gemini Pro - 用于扩展各种任务的最佳模型。 Gemini Nano - 用于手机等设备的最高效模型。 1、Gemini Nano 的更轻版本，旨在在 Android 设备上本地离线运行。 Gemini Nano 对于设备上的任务非常高效。 Android 开发者可以通过 Android AICore 注册 Gemini Nano 的抢先体验计划，Pixel 8 Pro 用户已经可以看到它在录音机中的汇总和 Gboard 中的智能回复等功能中推出，以及更多即将推出的功能！ 2、Gemini Pro 的更强大版本，它将很快为许多 Google AI 服务提供支持，并且从今天开始成为 Bard 的支柱。现在，Gemini Pro 今天在 Bard 迄今为止最大的更新中推出（在 170 个国家/地区提供英语），在响应中提供了更高级的推理和理解。 Bard Advanced with Ultra 是我们用于高度复杂任务的最通用、最强大的模型，将于明年初推出。从 12 月 13 日开始，开发者和企业客户将可以通过 Google AI Studio 或 Google Cloud Vertex AI 访问 Gemini Pro 的 Gemini API。 3、还有一个功能更强大的模型，称为 Gemini Ultra，它是 Google 迄今为止创建的最强大的大模型，主要是为数据中心和企业应用程序设计的。 Gemini Ultra 目前只提供给被邀请的客户、开发者、合作伙伴以及安全专家进行早期实验和反馈，并计划于明年初向开发者和企业客户推出。 Google Gemini性能表现 Gemini Ultra 的性能在 32 个广泛使用的学术基准测试中的 30 个上超过了当前最先进的水平。 Gemini Ultra 的得分为 90.0%，是第一个在 MMLU 上超越人类专家的模型。 Gemini Ultra 的得分率为 90.0%，是第一个在 MMLU（大规模多任务语言理解）测试中超过人类专家的模型，MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。在图像基准测试中，Gemini Ultra 在不使用对象字符识别 (OCR) 系统来提取图像中的文本进行下一步处理的情况下，表现优于以前最好的模型。这些基准测试凸显了 Gemini 的原生多模态性，并显示出了 Gemini 具有更复杂推理能力的潜力。 Gemini 目前仅提供英语版本，其他语言显然很快就会推出。该模型最终将被整合到谷歌的搜索引擎、广告产品、Chrome 浏览器等世界各地。 Gemini官方测试视频如何使用Google Gemini？个人用户对于普通用户，现在可以去Google bard免费使用Gemini了。使用地址：https://bard.google.com/ 为了使用Gemini Pro模型，您需要满足以下条件: 您的Bard界面语言必须为英语您的Bard节点必须位于美国您必须使用最新版本的Bard 如果您满足上述条件，您可以通过以下步骤来启用Gemini Pro模型: 1.打开Bard界面 2.点击“设置”图标 3.点击“模型” 4选择“Gemini Pro” 5.点击“保存” 完成这些步骤后，Bard将开始使用GeminiPro模型。您可以通过以下方法来验证是否已成功启用GeminiPro模型 1.点击“帮助”图标 2.点击“关于Bard” 3.查看“模型”部分如果“模型”部分显示“Gemini Pro”则表示您已成功启用Gemini Pro模型开发者和企业用户今天（12月14日）， Google 的 Gemini Pro 通过 Gemini API 上线，并且提供了 API 访问，同时还有一个开发者的利好：目前 Gemini Pro 可免费使用！ Gemini API 地址：http://ai.google.dev Gemini API支持32k上下文窗口，在一定限制内可免费使用，具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能，支持全球180多个国家和地区、38种语言，支持文本、图像输入和文本输出，提供SDK（软件开发工具包）。现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面，免费版本支持每分钟最多60个请求，但输入输出数据将被用于改善谷歌的模型。之后将推出付费计划，每千字符输入定价0.00025美元（约合人民币0.0018元），每张图像输入定价0.0025美元（约合人民币0.018元），每千字符输出定价0.0005美元（约合人民币0.0036元）。了解更多详情：官方中文内容：https://www.aihub.cn/news/google-gemini/ 官方英文博客：https://blog.google/technology/ai/google-gemini-ai/ →想免费在线AI绘画，点此立即使用！

24年7月2日027

ImageBind是什么？ AIHub最新消息，Meta 公司发布了一个新的开源人工智能模型 ImageBind，该模型能够将多种数据流，包括文本、音频、视觉数据、温度和运动读数等整合在一起。该模型目前只是一个研究项目，还没有直接的消费者或实际应用，但它展示了未来生成式人工智能系统的可能性，这些系统能够创造出沉浸式、多感官的体验。同时，该模型也表明了 Meta 公司在人工智能研究领域的开放态度，而其竞争对手如 OpenAI 和谷歌则变得越来越封闭。技术原理该研究的核心概念是将多种类型的数据整合到一个多维索引（或用人工智能术语来说，“嵌入空间”）中。这个概念可能有些抽象，但它正是近期生成式人工智能热潮的基础。例如，人工智能图像生成器，如 DALL-E、Stable Diffusion 和 Midjourney 等，都依赖于在训练阶段将文本和图像联系在一起的系统。它们在寻找视觉数据中的模式的同时，将这些信息与图像的描述相连。这就是为什么这些系统能够根据用户的文本输入生成图片。同样的道理也适用于许多能够以同样方式生成视频或音频的人工智能工具。 Meta 公司称，其模型 ImageBind 是第一个将六种类型的数据整合到一个嵌入空间中的模型。这六种类型的数据包括：视觉（包括图像和视频）；热力（红外图像）；文本；音频；深度信息；以及最有趣的一种 —— 由惯性测量单元（IMU）产生的运动读数。（IMU 存在于手机和智能手表中，用于执行各种任务，从手机从横屏切换到竖屏，到区分不同类型的运动。）未来的人工智能系统将能够像当前针对文本输入的系统一样，交叉引用这些数据。例如，想象一下一个未来的虚拟现实设备，它不仅能够生成音频和视觉输入，还能够生成你所处的环境和物理站台的运动。你可以要求它模拟一次漫长的海上旅行，它不仅会让你置身于一艘船上，并且有海浪的声音作为背景，还会让你感受到甲板在脚下摇晃和海风吹拂。 Meta 公司在博客文章中指出，未来的模型还可以添加其他感官输入流，包括“触觉、语音、气味和大脑功能磁共振成像信号”。该公司还声称，这项研究“让机器更接近于人类同时、全面、直接地从多种不同的信息形式中学习的能力。” 当然，这很多都是基于预测的，而且很可能这项研究的直接应用会非常有限。例如，去年，Meta 公司展示了一个人工智能模型，能够根据文本描述生成短而模糊的视频。像 ImageBind 这样的研究显示了未来版本的系统如何能够整合其他数据流，例如生成与视频输出匹配的音频。对于行业观察者来说，这项研究也很有趣，因为AIHub注意到 Meta 公司是开源了底层模型的，这在人工智能领域是一个越来越受到关注的做法。如何使用 1.demo演示：https://imagebind.metademolab.com/demo 2.官网：https://imagebind.metademolab.com/ 3.论文地址：https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf 4.GitHub代码地址：https://github.com/facebookresearch/ImageBind

24年7月2日021

Krisp是什么？ Krisp就像是一个会消除噪音的魔法工具，它用人工智能帮你清除掉背景的吵杂声音，让你的语音听起来更清晰。而且，Krisp还能帮你把会议的内容转写成文字，做成会议笔记。官网链接：https://krisp.ai/ Krisp能做什么？ Krisp能做的不仅仅是消除噪音，它还能消除回声，调整口音，甚至帮你把会议的内容转写成文字，做成会议笔记。最神奇的是，如果房间里有其他人在说话，Krisp能把他们的声音消除，只留下你的声音。一键静音：只需轻轻一按，您就可以消除自己麦克风的噪音以及对方扬声器的声音。与 600 多个应用程序兼容：可与 600 多种应用程序配合使用，包括 BlueJeans、Chrome 浏览器、Discord、Facetime、Google Hangouts、GoToMeeting、Microsoft Teams、Skype、Slack、XSplit、Zoom 等。 Krisp使用场景在线会议：无论你在家工作，还是在嘈杂的咖啡馆，Krisp都可以帮助你消除背景噪音，让你的在线会议更加专业和高效。远程工作：对于远程工作的人来说，Krisp可以消除他们的通话中的任何干扰，让他们可以专注于工作。在线教育：对于在线教育的教师和学生来说，Krisp可以消除他们的通话中的任何噪音，让他们可以专注于教学。客户服务：对于客户服务代表来说，Krisp可以消除他们的通话中的任何背景噪音，让他们可以更好地服务客户。 Krisp价格免费版：Krisp的免费版为个人用户提供每天60分钟的噪音、背景声音和回声消除服务，以及无限的转录服务和每天2份会议笔记。 Pro版：Krisp的Pro版适用于专业人士和小团队，价格为每月8美元，每年需支付96美元。Pro版提供所有免费版的功能，外加无限的噪音、背景声音和回声消除服务，无限的会议笔记，以及高清噪音消除功能。此外，Pro版还提供集中的用户管理和计费服务。企业版：Krisp的企业版适用于企业和呼叫中心，价格根据需求定制。企业版提供所有Pro版的功能，外加单点登录（SSO）和系统级身份管理（SCIM），分析仪表板，优质支持，集中的设置管理，基于设备的身份验证，定制的MSA支持，以及协助进行安全审查。公司介绍 Krisp 是一家全球软件公司，开发音频和视频解决方案，使每个人都能清晰、自信地进行沟通。其人工智能驱动的噪音、语音和回声消除技术被公认为行业领导者，被评为时代 100 强人工智能类别“2020 年最佳发明”之一，并被《福布斯》评为“美国最有前途的人工智能公司”之一。 Krisp 为全球超过 1.5 亿用户以及数千家小型企业、企业组织、联络中心和业务流程外包商提供支持，以创建更清晰的通信（无论他们在哪里工作），并受到一些世界上最大和最著名的组织的信任。 Krisp 为个人、团队和组织提供了改善会议体验所需的工具，并收集有关沟通习惯的见解以改善他们的数字福祉。双向背景噪音消除、语音消除和回声消除功能可在任何会议应用程序上使用，可检测并消除不需要的噪音，只留下清晰的高清音频，而虚拟背景可消除会议期间的视觉干扰。通话时间，为用户提供实时指示，显示他们在通话中讲话的百分比，以及其他见解，使团队成员和管理员能够采取行动并改善沟通。访问 krisp.ai 了解更多信息。

24年7月2日025

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部