CogAgent-可免费商用的带 Agent 能力的视觉模型

AI开发
24年9月27日
编辑

admin

CogAgent是什么？

CogAgent是一个由清华大学智谱AI开发的基于CogVLM改进的新型视觉语言模型（VLM）。该模型专门设计用于理解和导航图形用户界面（GUI）。它采用了低分辨率和高分辨率图像编码器的双编码器系统，能够处理和理解复杂的GUI元素和文本内容。

CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。在CogVLM的能力之上，它进一步拥有了GUI图像Agent的能力。

CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。它在包括AITW和Mind2Web在内的GUI操作数据集上显著超越了现有的模型。

CogAgent可以做什么？

CogAgent的主要功能是提高GUI的交互效率和准确性。它能够识别和解释小型GUI元素和文本，这对于有效的GUI交互至关重要。CogAgent在多个任务中表现优于现有的基于大型语言模型的方法，尤其是在PC和Android平台的GUI导航方面。此外，它还在多个文本丰富和一般视觉问答基准上表现出色。潜在应用包括自动化GUI操作（如点击按钮、输入文本和选择菜单）、提供GUI帮助和指导，以及开发新的GUI设计和交互方式。

CogAgent 的潜在应用包括：

自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。
提供 GUI 帮助和指导，例如解释功能和提供操作说明。
开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

如何使用CogAgent？

CogAgent对外开放了论文、代码，提供了在线体验功能：

温馨提示：

文章标题：CogAgent-可免费商用的带 Agent 能力的视觉模型

文章链接：https://yuntunft.cn/9816.html

更新时间：2024年09月27日

给TA打赏

共{{data.count}}人

人已打赏

AI Agent AI代理 CogAgent 智谱AI

CogAgent是什么？ CogAgent是一个由清华大学智谱AI开发的基于CogVLM改进的新型视觉语言模型（VLM）。该模型专门设计用于理解和导航图形用户界面（GUI）。它采用了低分辨率和高分辨率图像编码器的双编码器系统，能够处理和理解复杂的GUI元素和文本内容。 CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。在CogVLM的能力之上，它进一步拥有了GUI图像Agent的能力。 CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。它在包括AITW和Mind2Web在内的GUI操作数据集上显著超越了现有的模型。 CogAgent可以做什么？ CogAgent的主要功能是提高GUI的交互效率和准确性。它能够识别和解释小型GUI元素和文本，这对于有效的GUI交互至关重要。CogAgent在多个任务中表现优于现有的基于大型语言模型的方法，尤其是在PC和Android平台的GUI导航方面。此外，它还在多个文本丰富和一般视觉问答基准上表现出色。潜在应用包括自动化GUI操作（如点击按钮、输入文本和选择菜单）、提供GUI帮助和指导，以及开发新的GUI设计和交互方式。 CogAgent 的潜在应用包括：自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导，例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。 CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。如何使用CogAgent？ CogAgent对外开放了论文、代码，提供了在线体验功能：论文：https://arxiv.org/abs/2312.08914 代码：https://github.com/THUDM/CogVLM 体验Demo：Streamlit

24年7月1日022

智谱清言是什么？ 8 月 31 日，智谱 AI 正式上线首款生成式AI 助手 —— 「智谱清言」。智谱清言是基于ChatGLM2模型开发，支持多轮对话，具备内容创作、信息归纳总结等能力。智谱清言可以做什么？智谱清言帮你“聪明一点”，每天少工作一小时。基于中英双语大模型ChatGLM开发，具备以下丰富的能力: 【通用问答】能回答各类问题，涵盖众多领域，您的智能AI助手。【媒体写作】文章创作、新闻选题、微博宣发、产品PR、APP种草、短报编写、公众号推文、账号规划、提炼总结、采访邀约，你能想到的，这里都有。【写作】更多创意：写作文、标题生成、广告文案、PPT大纲、开题报告、分镜脚本。【学习】雅思作文、学习计划、研报大纲、语法修改、论文框架、古风诗词、专业计划、学术研究、英语听力。【职场】简历框架、工作规划、新闻稿、简历润色、工作总结、面试准备、行业报告、Offer对比、360评估、项目复盘、SWOT分析、合同助手、绩效目标。【编程】测试用例、ASCI II艺术家、小游戏、H5动画、Linux命令、SQL查询、Json结构化、SQL建表、正则代码。【教育】成语故事、成语接龙、睡前故事、历史解读、朝代故事、因材施教、古诗故事。【虚拟对话】对话动漫角色、动物世界、重返侏罗纪、星体对话、学者科普。【论文】开题报告、论文选题、目录大纲、论文综述、论文降重、致谢辞、论文点评、论文PPT。【公文】演讲稿、年度总结、会议致辞、请假条、即兴发言、祝贺信、推荐信、告别信、道歉信、外语公文、公司公示。【生活】旅行计划、纪念日文、生日惊喜、电影推荐、购车建议、装修建议、减肥计划、旅行推荐、时间管理、理财建议。打造中文版的ChatGPT，提升工作效率，做您的AI助手。如何使用智谱清言？产品链接：www.chatglm.cn 「智谱清言」已在各大应用商店上线，用户可通过苹果商店 App Store、安卓主流商店（包括华为、OPPO、vivo 及小米等）进行下载，或在微信小程序中搜索「智谱清言」体验其功能。在「智谱清言」上，用户可随时随地享受更智能、更便捷、更高效的个性化内容获取。智谱 AI 将继续以用户为核心，持续完善产品与服务，为广大用户带来更丰富的人工智能产品体验。

24年7月1日037

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部