PandaGPT简介 PandaGPT 是由剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源的通用指令遵循模型。这是首个实现了跨六种模态（图像/视频、文本、音频、深度、thermal和IMU）执行指令遵循数据的基础模型。在没有明确多模态监督的情况下，PandaGPT展现出了强大的多模态能力。主页：https://panda-gpt.github.io/ 论文：http://arxiv.org/abs/2305.16355 代码：https://github.com/yxuansu/PandaGPT 在线体验：https://ailabnlp.tencent.com/research_demos/panda_gpt/ PandaGPT功能 PandaGPT的核心创新在于可以同时接受多个模态输入，并自然地组合不同模态的语义，超越传统的单模态分析，扩展了下游应用场景，也更贴近AGI的实现方式。它可以执行复杂的理解/推理任务，如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题，或是多轮对话等。使用场景 PandaGPT的使用场景非常广泛，包括但不限于：基于图片的问答和多轮问答基于视频的问答受图像/视频启发的创意性写作视觉推理能力音频推理能力图片+音频的多模态理解能力视频+音频的多模态理解能力 PandaGPT的多模态能力使其在处理多模态及模态组合方面有惊人的能力，为未来的AI研究和应用开辟了新的可能性。

AI视频
24年7月1日
编辑

admin

PandaGPT-多模态AI大模型

温馨提示：

文章标题：PandaGPT简介 PandaGPT 是由剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源的通用指令遵循模型。这是首个实现了跨六种模态（图像/视频、文本、音频、深度、thermal和IMU）执行指令遵循数据的基础模型。在没有明确多模态监督的情况下，PandaGPT展现出了强大的多模态能力。主页：https://panda-gpt.github.io/ 论文：http://arxiv.org/abs/2305.16355 代码：https://github.com/yxuansu/PandaGPT 在线体验：https://ailabnlp.tencent.com/research_demos/panda_gpt/ PandaGPT功能 PandaGPT的核心创新在于可以同时接受多个模态输入，并自然地组合不同模态的语义，超越传统的单模态分析，扩展了下游应用场景，也更贴近AGI的实现方式。它可以执行复杂的理解/推理任务，如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题，或是多轮对话等。使用场景 PandaGPT的使用场景非常广泛，包括但不限于：基于图片的问答和多轮问答基于视频的问答受图像/视频启发的创意性写作视觉推理能力音频推理能力图片+音频的多模态理解能力视频+音频的多模态理解能力 PandaGPT的多模态能力使其在处理多模态及模态组合方面有惊人的能力，为未来的AI研究和应用开辟了新的可能性。

文章链接：https://yuntunft.cn/6465.html

更新时间：2024年07月01日

给TA打赏

共{{data.count}}人

人已打赏

AI大模型 PandaGPT

Grok-1是什么？ Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型，遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，这种MOE架构重点在于提高大模型的训练和推理效率，形象地理解，MOE就像把各个领域的“专家”集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布，为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性：首先，Grok-1是一个未针对特定任务进行微调的基础模型，它基于大量文本数据训练而成；其次，作为一款基于混合专家技术构建的大语言模型，Grok-1拥有3140亿参数，在处理每个token时有25%的权重处于活跃状态；最后，Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果，训练完成于2023年10月。 Grok-1的技术参数基础信息：模型大小：3140亿参数，其中混合了8名专家（2名活跃）活动参数：860亿特色技术：使用旋转嵌入（Rotary Embeddings，简称#rope），而非固定位置嵌入模型结构细节: 分词器词汇量：131,072（与GPT-4相似），即2^17嵌入尺寸：6,144（48*128）架构层数：64层变压器层每层结构：包含一个解码器层，具有多头注意力块和密集块键值大小：128 多头注意力块: 查询头数量：48键/值（KV）头数量：8KV大小：128密集块（Dense Block）: 加宽系数：8隐藏层大小：32,768每个代币从8名专家中选择2名旋转位置嵌入:尺寸：6,144，与模型的输入嵌入大小相同上下文长度：8,192个标记精度：bf16 如何使用Grok-1？ xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址：https://github.com/xai-org/grok-1

24年7月1日020

火山方舟是什么？火山方舟是一个开放的大模型生态平台，它提供了一系列功能，包括模型广场、模型体验、模型训练推理和模型应用。这个平台旨在加速大模型能力渗透到千行百业，助力模型提供方和使用者实现商业新增长。了解更多：https://www.volcengine.com/product/ark 火山方舟可以做什么？模型广场：用户可以在模型广场上查看所有模型提供方上架在平台上的大模型。模型体验：用户可以快速体验各模型的实际表现效果，探索其在语言、图像等方面的先进能力。模型训练推理：通过专业的训练、推理、评测与精调功能，用户可以快速构建并使用专属大模型服务。模型应用：用户可以将先进的大模型能力应用到实际场景中，解决业务挑战，实现商业新增长。火山方舟有哪些优势？精选模型：平台提供了精选的多家优质大模型，给客户提供了更多的选择。丰富的平台应用与工具：平台提供了丰富的应用和工具，帮助用户搭建专属的创新场景。信息安全：平台提供了全方位的安全保障，保护模型提供方和客户的信息安全。强劲算力：平台提供了高性价比的训练、推理资源，基于火山的海量资源池，提供充足的高性能GPU资源。专业服务：平台提供了专业的产品与运营团队，专业的销售与交付团队，满足企业的应用搭建与交付需求。火山方舟的使用场景火山方舟可以应用于多个行业，包括汽车、金融、大消费、泛互联网和教育办公等。例如，在汽车行业，它可以提供智能座舱交互、售后知识库、车辆健康监测和车辆操作指导等功能。在教育办公行业，它可以提供智能教学、智能办公等解决方案。

24年7月1日025

妙话AI是什么？妙话AI是一个在线智能写作应用，它提供了多种功能，包括自动生成绘画、语音对话机器人等。这个平台集成了100多个智能AI大模型，用户可以通过一键操作进行聊天、写作、绘画和语音生成，轻松解决复杂问题。产品官网：https://imiaohua.com 妙话AI的主要功能以下是妙话AI的一些主要功能和特点：多模型PK：用户可以选择不同的AI模型进行对话，比较它们的性能。 AI绘图：提供AI艺术字设计和AI修图功能，以及基于腾讯优图实验室技术的AI绘画产品。 AI写作：包括百度文心一言-V4.0、清华智谱-GLM-3和GLM-4等，这些模型适用于各种写作场景，如广告文案、小说创作、知识类写作等。语音生成：提供基于MiniMax语音模型的MiniMax-SPEECH，以及百度-SPEECH和出门问问-序列猴子等，能够生成自然、高保真、个性化的语音。智能摄影大师：提供摄影图效果增强、光影原画师、LOGO绘制专家等服务。写作机器人：帮助用户创作小说剧情、撰写工作汇报、生成辞职报告等。 AI角色：提供角色扮演和故事创作功能，如不良少女、学霸男友等角色。 AI图片扩展：扩展画面，延伸创意空间，提供水墨画鼻祖等风格。 AI修图：提供图片修复和背景去除功能，提升图片质量。 AIGC：提供文生视频、SWOT分析等服务，帮助用户进行内容创作和分析。妙话AI的应用场景妙话AI的应用场景非常广泛，涵盖了多个领域和日常生活的各个方面。以下是一些主要的应用场景：内容创作：作家、博主和内容创作者可以使用AI写作功能来生成文章、故事、广告文案或社交媒体帖子。艺术设计：设计师和艺术家可以利用AI绘图和艺术字设计功能来创作独特的视觉作品，如LOGO、插画和艺术字体。教育和学习：学生和教育工作者可以使用AI角色和AI写作来辅助教学，创作教学材料或进行角色扮演练习。商业和营销：企业可以使用AI写作来生成营销文案、产品描述、工作报告和招聘广告。娱乐和互动：游戏开发者和娱乐产业可以利用AI对话机器人创建互动故事和角色，提供更丰富的用户体验。语音服务：广播电台、有声书制作和智能硬件开发者可以利用语音生成功能来创建自然流畅的语音内容。图像处理：摄影师和图像编辑者可以使用AI修图功能来提升图片质量，进行背景去除和效果增强。个性化服务：个人用户可以利用AI生成个性化的语音对话，创建个性化的语音助手或进行语音合成。研究和分析：研究人员和分析师可以利用AI进行资料搜集、SWOT分析和行业研究。社交媒体：社交媒体经理和营销人员可以使用AI生成吸引人的帖子和互动内容，提高用户参与度。妙话AI通过集成多种AI模型，为用户提供了一个多功能的平台，无论是专业创作还是日常使用，都能提供有效的支持和便利。总之，妙话AI的目标是为用户提供一个多功能的AI助手，无论是在艺术创作、写作、语音合成还是图像处理方面，都能提供高效、便捷的解决方案。用户可以根据自己的需求选择合适的AI模型，进行个性化的创作和对话。

24年7月2日042

浦语灵笔是什么？上海人工智能实验室（上海AI实验室）近日推出了首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer)，该模型能够根据用户提供的主题或图片，自动创作出图文并茂的文章，为大模型落地应用提供更多可能。浦语灵笔是基于书生·浦语大语言模型（InternLM）的多模态扩展，书生·浦语是上海AI实验室今年7月以来陆续开源的7B(InterLM-7B)及20B(InternLM-20B)版本的大语言模型，为业界提供了完整的大模型研发与应用基座，以及全链条工具体系。项目地址：https://github.com/InternLM/InternLM-XComposer 浦语灵笔能做什么？浦语灵笔不仅能够进行流利的中英文图文对话，准确理解图像内容，还具备了图文并茂文章创作的全新能力。用户仅需提供主题或图片，便可一键生成涵盖历史沿革、主要景点文物介绍等方面的长篇文章，并在适当位置自动插入与文字信息对应的图片。除自动配图能力外，浦语灵笔还提供了配图推荐和更换功能，根据用户实际需求定制图文内容。目前，浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成，并将逐渐开放更多能力，适应更多样化任务需求。浦语灵笔为图文文章创作设计了“三步走”的算法流程：首先，根据用户输入的主题或图片，浦语灵笔利用其强大的写作能力，创作出文采斐然的文章。其次，浦语灵笔自动分析文章内容和段落布局，规划需要插图图片的位置，并生成对图片内容需求的描述。最后，采用从粗筛到精选的配图策略，利用多模态大模型强大的图像理解能力，从海量图库中选择出最符合文章上下文内容和整体图像风格的图片，完成文章的自动配图。浦语灵笔出色的图文创作效果，得益于其多任务预训练模型（InternLM-XComposer-VL-7B）强大的多模态理解能力。研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B进行了详细测试，包括MME Benchmark、MMBench、MMBench-CN、Seed-Bench和CCBench等中英文评测。评测结果显示，在上述5项评测中，浦语灵笔均体现出卓越性能，尤其是在中国文化理解方面，表现出深厚的知识积淀。如何使用浦语灵笔？浦语灵笔现已开源，同时上线GitHub、Hugging Face及魔搭社区（ModelScope），欢迎开发者下载试用。项目地址：https://github.com/InternLM/InternLM-XComposer

24年7月2日058

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部