当前位置：首页AI视频Ferret是什么？ Ferret是苹果公司开发的端到端机器学习语言模型，Ferret不仅可以准确识别图像并描述其内容，还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。Ferret结合了混合区域表示和空间感知的视觉采样器，使得在MLLM中实现细粒度和开放词汇的指代和定位成为可能。 Ferret拥有7B和13B两个版本，为了增强 Ferret 模型的能力，苹果特别收集了一个包含1.1M个样本的GRIT 数据集。 GitHub：https://github.com/apple/ml-ferret 论文：https://arxiv.org/abs/2310.07704 Ferret的主要功能和特点 Ferret能够理解和处理图像与文本之间的复杂关系。这个模型的特别之处在于它能够识别和定位图像中的各种元素，无论这些元素是什么形状或大小。多模态理解：Ferret结合了自然语言处理和计算机视觉技术，能够理解复杂的语言指令，并在图像中找到具体的物体或区域。细粒度定位：它能够在非常精确的层面上，根据文字描述在图片中定位和识别物体，甚至是图片中的一小部分。开放词汇的应用：Ferret支持开放词汇的处理，这意味着它能够理解和响应各种各样的、未预先定义的语言表达。大规模数据集：它使用了一个名为GRIT的大规模数据集，这个数据集包含了大量的实例，用于训练和提高模型的准确性和效率。多模态评估基准：Ferret-Bench是一个综合性的评估工具，用于测试模型在理解语言、图像处理、知识获取和逻辑推理等多个方面的能力。适用于复杂任务：Ferret特别适合于需要综合处理语言和视觉信息的复杂任务，如自动图像标注、智能搜索和内容创建等。灵活性和适应性：由于其开放词汇和细粒度处理的能力，Ferret在多种场景下都有很好的适应性和应用潜力。 Ferret适用场景由于Ferret强大的图像和文本处理能力，Ferret 适用于多种应用场景，包括图像搜索、自动图像标注、交互式媒体探索等。 Ferret适用人群 Ferret适合机器学习研究人员、开发者和任何对先进的自然语言处理和计算机视觉技术感兴趣的人。它特别适用于那些在自然语言理解、图像处理和多模态机器学习领域工作的专业人士。

Ferret是什么？ Ferret是苹果公司开发的端到端机器学习语言模型，Ferret不仅可以准确识别图像并描述其内容，还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。Ferret结合了混合区域表示和空间感知的视觉采样器，使得在MLLM中实现细粒度和开放词汇的指代和定位成为可能。 Ferret拥有7B和13B两个版本，为了增强 Ferret 模型的能力，苹果特别收集了一个包含1.1M个样本的GRIT 数据集。 GitHub：https://github.com/apple/ml-ferret 论文：https://arxiv.org/abs/2310.07704 Ferret的主要功能和特点 Ferret能够理解和处理图像与文本之间的复杂关系。这个模型的特别之处在于它能够识别和定位图像中的各种元素，无论这些元素是什么形状或大小。多模态理解：Ferret结合了自然语言处理和计算机视觉技术，能够理解复杂的语言指令，并在图像中找到具体的物体或区域。细粒度定位：它能够在非常精确的层面上，根据文字描述在图片中定位和识别物体，甚至是图片中的一小部分。开放词汇的应用：Ferret支持开放词汇的处理，这意味着它能够理解和响应各种各样的、未预先定义的语言表达。大规模数据集：它使用了一个名为GRIT的大规模数据集，这个数据集包含了大量的实例，用于训练和提高模型的准确性和效率。多模态评估基准：Ferret-Bench是一个综合性的评估工具，用于测试模型在理解语言、图像处理、知识获取和逻辑推理等多个方面的能力。适用于复杂任务：Ferret特别适合于需要综合处理语言和视觉信息的复杂任务，如自动图像标注、智能搜索和内容创建等。灵活性和适应性：由于其开放词汇和细粒度处理的能力，Ferret在多种场景下都有很好的适应性和应用潜力。 Ferret适用场景由于Ferret强大的图像和文本处理能力，Ferret 适用于多种应用场景，包括图像搜索、自动图像标注、交互式媒体探索等。 Ferret适用人群 Ferret适合机器学习研究人员、开发者和任何对先进的自然语言处理和计算机视觉技术感兴趣的人。它特别适用于那些在自然语言理解、图像处理和多模态机器学习领域工作的专业人士。

AI视频
24年7月1日
编辑

admin

Ferret：苹果发布的多模态大语言模型

温馨提示：

文章标题：Ferret是什么？ Ferret是苹果公司开发的端到端机器学习语言模型，Ferret不仅可以准确识别图像并描述其内容，还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。Ferret结合了混合区域表示和空间感知的视觉采样器，使得在MLLM中实现细粒度和开放词汇的指代和定位成为可能。 Ferret拥有7B和13B两个版本，为了增强 Ferret 模型的能力，苹果特别收集了一个包含1.1M个样本的GRIT 数据集。 GitHub：https://github.com/apple/ml-ferret 论文：https://arxiv.org/abs/2310.07704 Ferret的主要功能和特点 Ferret能够理解和处理图像与文本之间的复杂关系。这个模型的特别之处在于它能够识别和定位图像中的各种元素，无论这些元素是什么形状或大小。多模态理解：Ferret结合了自然语言处理和计算机视觉技术，能够理解复杂的语言指令，并在图像中找到具体的物体或区域。细粒度定位：它能够在非常精确的层面上，根据文字描述在图片中定位和识别物体，甚至是图片中的一小部分。开放词汇的应用：Ferret支持开放词汇的处理，这意味着它能够理解和响应各种各样的、未预先定义的语言表达。大规模数据集：它使用了一个名为GRIT的大规模数据集，这个数据集包含了大量的实例，用于训练和提高模型的准确性和效率。多模态评估基准：Ferret-Bench是一个综合性的评估工具，用于测试模型在理解语言、图像处理、知识获取和逻辑推理等多个方面的能力。适用于复杂任务：Ferret特别适合于需要综合处理语言和视觉信息的复杂任务，如自动图像标注、智能搜索和内容创建等。灵活性和适应性：由于其开放词汇和细粒度处理的能力，Ferret在多种场景下都有很好的适应性和应用潜力。 Ferret适用场景由于Ferret强大的图像和文本处理能力，Ferret 适用于多种应用场景，包括图像搜索、自动图像标注、交互式媒体探索等。 Ferret适用人群 Ferret适合机器学习研究人员、开发者和任何对先进的自然语言处理和计算机视觉技术感兴趣的人。它特别适用于那些在自然语言理解、图像处理和多模态机器学习领域工作的专业人士。

文章链接：https://yuntunft.cn/49177.html

更新时间：2024年07月01日

给TA打赏

共{{data.count}}人

人已打赏

AI大模型 Ferret 苹果大模型

Grok-1是什么？ Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型，遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，这种MOE架构重点在于提高大模型的训练和推理效率，形象地理解，MOE就像把各个领域的“专家”集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布，为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性：首先，Grok-1是一个未针对特定任务进行微调的基础模型，它基于大量文本数据训练而成；其次，作为一款基于混合专家技术构建的大语言模型，Grok-1拥有3140亿参数，在处理每个token时有25%的权重处于活跃状态；最后，Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果，训练完成于2023年10月。 Grok-1的技术参数基础信息：模型大小：3140亿参数，其中混合了8名专家（2名活跃）活动参数：860亿特色技术：使用旋转嵌入（Rotary Embeddings，简称#rope），而非固定位置嵌入模型结构细节: 分词器词汇量：131,072（与GPT-4相似），即2^17嵌入尺寸：6,144（48*128）架构层数：64层变压器层每层结构：包含一个解码器层，具有多头注意力块和密集块键值大小：128 多头注意力块: 查询头数量：48键/值（KV）头数量：8KV大小：128密集块（Dense Block）: 加宽系数：8隐藏层大小：32,768每个代币从8名专家中选择2名旋转位置嵌入:尺寸：6,144，与模型的输入嵌入大小相同上下文长度：8,192个标记精度：bf16 如何使用Grok-1？ xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址：https://github.com/xai-org/grok-1

24年7月1日021

目录 Toggle OPPO AndesGPT是什么？ OPPO AndesGPT可以做什么？ OPPO AndesGPT适用人群 OPPO AndesGPT是什么？ 11 月 16 日，在2023 OPPO开发者大会上，OPPO 正式推出了自主训练的大模型 AndesGPT。AndesGPT有三大类规格：AndesGPT-Tiny、AndesGPT-Turbo和AndesGPT-Titan，可涵盖十亿至千亿以上多种不同参数规模的模型规格，根据不同场景智能调度。据介绍，AndesGPT 拥有对话增强、个性专属和端云协同三大技术特征，对于大模型带来的变革，OPPO 认为体现在四个方面：知识、记忆、工具和创作。在知识能力方面，AndesGPT 融合了知识图谱及通用搜索能力，为用户提供更专业的问答。通过知识增强技术，将外部知识与模型融合生成结果，降低幻觉。在记忆能力方面，AndesGPT 实现长期记忆机制，以支持无限长度的上下文和有状态服务。而长期记忆带来首字推理延迟这个技术挑战。为了解决该难题，OPPO 研发了一种注意力算法命名为 SwappedAttention。SwappedAttention 能够在多轮长上下文对话中，有效降低每个 query 的首字推理时长。其核心技术原理是，通过外部存储和 KV 压缩的方式实现会话级 KV 缓存。结合 PagedAttention 算法一起使用，能够带来 50%的首字延迟降低，以及 30%的推理吞吐提升。工具使用也是 AndesGPT 一项核心能力，更好的理解设备控制与服务 API，端到端生成可执行指令。目前 AndesGPT 已支持使用系统设置、一方应用、三方服务、代码解释器等各类工具。在创作方面，AndesGPT 已全面支持文生图与图生图场景。 AndesGPT模型在SuperCLUE测评基准的排行榜上表现出色，特别是在“知识与百科”能力测试中，得分高达98.33，仅次于GPT4，排名国内第一。 OPPO AndesGPT可以做什么？ OPPO AndesGPT的主要功能是提升对话能力，尤其是在与智能助理核心应用场景的结合上。它通过引入高质量的知识图谱和问答数据，以及对预训练和指令精调技术的优化，显著提高了模型在知识和百科方面的覆盖面和准确性。AndesGPT将被用于加强OPPO智能助手小布的AI能力，并逐步应用于更多OPPO核心产品中。 OPPO AndesGPT适用人群 OPPO AndesGPT主要适用于使用OPPO智能设备的用户。这包括那些需要高效、准确的语音助手服务的用户，特别是那些依赖智能手机进行日常任务和信息查询的人。随着技术的进一步整合和发展，AndesGPT可能会扩展到更广泛的用户群体，包括企业用户和开发者，他们可以利用这种高级AI技术来提升产品和服务的智能化水平。

24年7月1日026

火山方舟是什么？火山方舟是一个开放的大模型生态平台，它提供了一系列功能，包括模型广场、模型体验、模型训练推理和模型应用。这个平台旨在加速大模型能力渗透到千行百业，助力模型提供方和使用者实现商业新增长。了解更多：https://www.volcengine.com/product/ark 火山方舟可以做什么？模型广场：用户可以在模型广场上查看所有模型提供方上架在平台上的大模型。模型体验：用户可以快速体验各模型的实际表现效果，探索其在语言、图像等方面的先进能力。模型训练推理：通过专业的训练、推理、评测与精调功能，用户可以快速构建并使用专属大模型服务。模型应用：用户可以将先进的大模型能力应用到实际场景中，解决业务挑战，实现商业新增长。火山方舟有哪些优势？精选模型：平台提供了精选的多家优质大模型，给客户提供了更多的选择。丰富的平台应用与工具：平台提供了丰富的应用和工具，帮助用户搭建专属的创新场景。信息安全：平台提供了全方位的安全保障，保护模型提供方和客户的信息安全。强劲算力：平台提供了高性价比的训练、推理资源，基于火山的海量资源池，提供充足的高性能GPU资源。专业服务：平台提供了专业的产品与运营团队，专业的销售与交付团队，满足企业的应用搭建与交付需求。火山方舟的使用场景火山方舟可以应用于多个行业，包括汽车、金融、大消费、泛互联网和教育办公等。例如，在汽车行业，它可以提供智能座舱交互、售后知识库、车辆健康监测和车辆操作指导等功能。在教育办公行业，它可以提供智能教学、智能办公等解决方案。

24年7月1日025

妙话AI是什么？妙话AI是一个在线智能写作应用，它提供了多种功能，包括自动生成绘画、语音对话机器人等。这个平台集成了100多个智能AI大模型，用户可以通过一键操作进行聊天、写作、绘画和语音生成，轻松解决复杂问题。产品官网：https://imiaohua.com 妙话AI的主要功能以下是妙话AI的一些主要功能和特点：多模型PK：用户可以选择不同的AI模型进行对话，比较它们的性能。 AI绘图：提供AI艺术字设计和AI修图功能，以及基于腾讯优图实验室技术的AI绘画产品。 AI写作：包括百度文心一言-V4.0、清华智谱-GLM-3和GLM-4等，这些模型适用于各种写作场景，如广告文案、小说创作、知识类写作等。语音生成：提供基于MiniMax语音模型的MiniMax-SPEECH，以及百度-SPEECH和出门问问-序列猴子等，能够生成自然、高保真、个性化的语音。智能摄影大师：提供摄影图效果增强、光影原画师、LOGO绘制专家等服务。写作机器人：帮助用户创作小说剧情、撰写工作汇报、生成辞职报告等。 AI角色：提供角色扮演和故事创作功能，如不良少女、学霸男友等角色。 AI图片扩展：扩展画面，延伸创意空间，提供水墨画鼻祖等风格。 AI修图：提供图片修复和背景去除功能，提升图片质量。 AIGC：提供文生视频、SWOT分析等服务，帮助用户进行内容创作和分析。妙话AI的应用场景妙话AI的应用场景非常广泛，涵盖了多个领域和日常生活的各个方面。以下是一些主要的应用场景：内容创作：作家、博主和内容创作者可以使用AI写作功能来生成文章、故事、广告文案或社交媒体帖子。艺术设计：设计师和艺术家可以利用AI绘图和艺术字设计功能来创作独特的视觉作品，如LOGO、插画和艺术字体。教育和学习：学生和教育工作者可以使用AI角色和AI写作来辅助教学，创作教学材料或进行角色扮演练习。商业和营销：企业可以使用AI写作来生成营销文案、产品描述、工作报告和招聘广告。娱乐和互动：游戏开发者和娱乐产业可以利用AI对话机器人创建互动故事和角色，提供更丰富的用户体验。语音服务：广播电台、有声书制作和智能硬件开发者可以利用语音生成功能来创建自然流畅的语音内容。图像处理：摄影师和图像编辑者可以使用AI修图功能来提升图片质量，进行背景去除和效果增强。个性化服务：个人用户可以利用AI生成个性化的语音对话，创建个性化的语音助手或进行语音合成。研究和分析：研究人员和分析师可以利用AI进行资料搜集、SWOT分析和行业研究。社交媒体：社交媒体经理和营销人员可以使用AI生成吸引人的帖子和互动内容，提高用户参与度。妙话AI通过集成多种AI模型，为用户提供了一个多功能的平台，无论是专业创作还是日常使用，都能提供有效的支持和便利。总之，妙话AI的目标是为用户提供一个多功能的AI助手，无论是在艺术创作、写作、语音合成还是图像处理方面，都能提供高效、便捷的解决方案。用户可以根据自己的需求选择合适的AI模型，进行个性化的创作和对话。

24年7月2日042

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型Grok-1.5V就问世了。 Grok-1.5V是什么？ Grok-1.5V是一个由马斯克旗下公司xAI发布的全新多模态AI大模型，它不仅具备强大的文本处理能力，还可以处理各种视觉信息，如文档、图表、截图和照片。这使得Grok-1.5V能够在多学科推理、理解科学图表、阅读文本和实现真实世界的空间理解等领域与现有的前沿多模态模型竞争。 Grok-1.5V的主要特性强大的多模态能力：Grok-1.5V不仅在处理文本方面表现出色，还能理解和处理广泛的视觉信息，如文档、图表、截图和照片。这种能力使它能够在多个领域内执行复杂的任务，提供更全面的解决方案。竞争力强的基准表现：在多个前沿模型的基准测试中，Grok-1.5V展现了卓越的性能。它在多学科推理、数学问题解决、图表解析和文档理解等方面与其他顶尖模型竞争，显示出其广泛的应用潜力。先进的实世界理解：特别引入的RealWorldQA基准针对真实世界的空间理解进行测评，Grok-1.5V在这一基准中表现优异，超越了多数同类模型。这表明它能有效理解并处理与真实世界互动相关的复杂场景和问题。零样本学习能力：Grok-1.5V在未经特定训练的情况下，也能展现出良好的性能。这种能力使其能够灵活适应新的任务和挑战，而不需要针对每一种情况进行专门的训练。多样的输入处理：该模型能够处理来自不同领域和格式的输入，无论是科学图表、复杂文档还是现实世界的图片，都能被有效解析和理解。这使得Grok-1.5V特别适合需要处理大量不同类型数据的应用。 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。 Grok-1.5V 应用场景 xAI在博客中展示了 Grok-1.5V 的几个应用示例：科学图表理解：Grok-1.5V能够解析复杂的科学图表，并从中提取关键信息。这使得模型可以在学术研究或数据分析中应用，帮助用户理解和解释图表中的数据趋势和关系。多学科推理：该模型在处理涉及多个学科的复杂问题时表现出色，例如可以同时理解物理、生物和化学的概念，并将这些知识应用于解决跨学科的问题。真实世界的空间理解：通过RealWorldQA基准测试，Grok-1.5V展示了其对真实世界图像的高度理解能力。例如，它能分析城市街景的图片，识别和解释路标、建筑和其他重要元素。数学问题解决：Grok-1.5V可以解决复杂的数学问题，包括但不限于代数、几何和统计问题。这一能力使得它可以在教育领域或任何需要精确数学计算的场合中发挥作用。文档和文字处理：该模型还能处理和生成文本内容，适用于文档摘要、自动报告生成和内容创作等应用。它可以从大量的文本资料中提取关键信息，生成结构化和有洞察力的输出。 Grok-1.5V根据流程图生成代码如何使用Grok-1.5V？目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。了解更多详情：https://x.ai/blog/grok-1.5v Grok-1.5V的推出是向理解和生成多模态内容迈出的重要一步，预计在未来几个月内，它在图像、音频和视频等多种模态上的理解和生成能力都将得到显著提升。

24年7月2日050

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部