当前位置:
首页AI视频Grok-1是什么? Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性: 首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成; 其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态; 最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。 Grok-1的技术参数 基础信息: 模型大小:3140亿参数,其中混合了8名专家(2名活跃)活动参数:860亿特色技术:使用旋转嵌入(Rotary Embeddings,简称#rope),而非固定位置嵌入 模型结构细节: 分词器词汇量:131,072(与GPT-4相似),即2^17嵌入尺寸:6,144(48*128)架构层数:64层变压器层每层结构:包含一个解码器层,具有多头注意力块和密集块键值大小:128 多头注意力块: 查询头数量:48键/值(KV)头数量:8KV大小:128密集块(Dense Block): 加宽系数:8隐藏层大小:32,768每个代币从8名专家中选择2名 旋转位置嵌入:尺寸:6,144,与模型的输入嵌入大小相同上下文长度:8,192个标记精度:bf16 如何使用Grok-1? xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址:https://github.com/xai-org/grok-1