CogAgent是什么？ CogAgent是一个由清华大学智谱AI开发的基于CogVLM改进的新型视觉语言模型（VLM）。该模型专门设计用于理解和导航图形用户界面（GUI）。它采用了低分辨率和高分辨率图像编码器的双编码器系统，能够处理和理解复杂的GUI元素和文本内容。 CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。在CogVLM的能力之上，它进一步拥有了GUI图像Agent的能力。 CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。它在包括AITW和Mind2Web在内的GUI操作数据集上显著超越了现有的模型。 CogAgent可以做什么？ CogAgent的主要功能是提高GUI的交互效率和准确性。它能够识别和解释小型GUI元素和文本，这对于有效的GUI交互至关重要。CogAgent在多个任务中表现优于现有的基于大型语言模型的方法，尤其是在PC和Android平台的GUI导航方面。此外，它还在多个文本丰富和一般视觉问答基准上表现出色。潜在应用包括自动化GUI操作（如点击按钮、输入文本和选择菜单）、提供GUI帮助和指导，以及开发新的GUI设计和交互方式。 CogAgent 的潜在应用包括：自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导，例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。 CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。如何使用CogAgent？ CogAgent对外开放了论文、代码，提供了在线体验功能：论文：https://arxiv.org/abs/2312.08914 代码：https://github.com/THUDM/CogVLM 体验Demo：Streamlit

AI视频
7月1日
编辑

admin

CogAgent-可免费商用的带 Agent 能力的视觉模型

温馨提示：

文章标题：CogAgent是什么？ CogAgent是一个由清华大学智谱AI开发的基于CogVLM改进的新型视觉语言模型（VLM）。该模型专门设计用于理解和导航图形用户界面（GUI）。它采用了低分辨率和高分辨率图像编码器的双编码器系统，能够处理和理解复杂的GUI元素和文本内容。 CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。在CogVLM的能力之上，它进一步拥有了GUI图像Agent的能力。 CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。它在包括AITW和Mind2Web在内的GUI操作数据集上显著超越了现有的模型。 CogAgent可以做什么？ CogAgent的主要功能是提高GUI的交互效率和准确性。它能够识别和解释小型GUI元素和文本，这对于有效的GUI交互至关重要。CogAgent在多个任务中表现优于现有的基于大型语言模型的方法，尤其是在PC和Android平台的GUI导航方面。此外，它还在多个文本丰富和一般视觉问答基准上表现出色。潜在应用包括自动化GUI操作（如点击按钮、输入文本和选择菜单）、提供GUI帮助和指导，以及开发新的GUI设计和交互方式。 CogAgent 的潜在应用包括：自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导，例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。 CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。如何使用CogAgent？ CogAgent对外开放了论文、代码，提供了在线体验功能：论文：https://arxiv.org/abs/2312.08914 代码：https://github.com/THUDM/CogVLM 体验Demo：Streamlit

文章链接：https://yuntunft.cn/6253.html

更新时间：2024年07月01日

给TA打赏

共{{data.count}}人

人已打赏

AI Agent AI代理 CogAgent 智谱AI

Octopus v2是什么？ Octopus v2是由斯坦福大学研究团队最近推出的可在设备上运行的端侧AI模型，引起了开发者社区的广泛关注，一夜之间下载量超过了2000次。Octopus v2是一个拥有20亿参数的模型，能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4，且将上下文长度减少了95%。与基于RAG的Llama7B模型相比，Octopus v2的速度快了36倍。 Octopus v2的功能特性高准确性和低延迟：通过优化模型结构和参数，Octopus v2实现了在设备上运行时的高准确性和低延迟性能。大幅减少上下文长度：相较于传统模型，Octopus v2在模型推断过程中将上下文长度减少了超过95%。适用于边缘设备：该模型的设计考虑到了边缘设备的性能和资源限制，使其能够在智能手机、汽车、VR头盔和个人电脑等设备上高效运行。保护隐私和降低成本：相对于依赖云计算的大型语言模型，Octopus v2提供了一种在保护用户隐私和降低推理成本方面的优势。 Octopus v2的应用场景移动设备应用：在智能手机上运行复杂的语言处理任务，提供即时反馈和交互。汽车内置系统：在汽车的娱乐和信息系统中，提供更智能的语音交互功能。个人电脑软件：为个人电脑上的软件应用提供高效的语言处理能力，包括文本分析和自然语言理解。智能家居设备：在智能家居设备中，利用语言模型提高设备的智能交互和自动化水平。如何使用Octopus v2？ Octopus v2的论文和模型已提供下载。论文地址：https://arxiv.org/abs/2404.01744 模型主页：https://huggingface.co/NexaAIDev/Octopus-v2 Octopus v2的推出标志着设备端AI智能体时代的到来，为开发者和用户提供了前所未有的AI应用体验和可能性。

7月2日028

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部