ChatGLM是什么?
ChatGLM是智谱 AI 发布的中英双语千亿对话模型。基于千亿基座模型 GLM-130B,注入代码预训练,通过有监督微调等技术实现人类意图对齐,具备问答、多轮对话、代码生成功能的中英双语大模型。
内测申请网址:https://chatglm.cn/
开源地址:https://github.com/THUDM/ChatGLM-6B
ChatGLM可以做什么?
ChatGLM系列模型具备以下主要能力:
- 逻辑推理:模型具备广博的知识面以及灵活的知识关联能力,并通过注入代码预训练加强了推理能力;可以根据输入的指令提示,迅速联想出相关的大量知识及概念,并找出最适合的推理链条。
- 内容创作:模型可以根据用户的输入生成相关的内容,这可以用于自动写作,生成文章,故事,诗歌等。
- 代码生成:通过注入代码预训练,模型可以生成代码,这可以用于自动编程,代码补全等。
- 信息提取:模型可以从输入的文本中提取关键信息,这可以用于文本分析,信息摘要等。
- 问答和多轮对话:模型可以理解和回答用户的问题,也可以进行多轮的对话。这可以用于构建智能对话系统,如聊天机器人,客服机器人等。
以上是智谱AI语言大模型的主要能力,具体的应用可能会根据模型的版本和配置有所不同。
ChatGLM有什么特性?
具体来说,ChatGLM-6B具备以下特点:
- 充分的中英双语预训练:ChatGLM-6B在1:1比例的中英语料上训练了1T的token量,兼具双语能力。
- 优化的模型架构和大小:吸取GLM-130B训练经验,修正了二维RoPE位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署ChatGLM-6B成为可能。
- 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
- 更长的序列长度:相比 GLM-10B(序列长度1024),ChatGLM-6B序列长度达2048,支持更长对话和应用。
- 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为markdown,方便展示。
ChatGLM成果演示
由ChatGLM生成的对话效果展示:
关于智谱AI
智谱AI由清华大学计算机系的技术成果转化而来,致力于打造新一代认知智能通用模型,提出了Model as a Service(MaaS)的市场理念。
公司于2021年合作研发了双语千亿级超大规模预训练模型GLM-130B,并主导构建了高精度通用知识图谱,把两者有机融合为数据与知识双轮驱动的认知引擎,并基于此千亿基座模型打造 ChatGLM (chatglm.cn)。此外,智谱AI也推出了认知大模型平台Bigmodel.ai,形成AIGC产品矩阵,包括高效率代码模型CodeGeeX、高精度文图生成模型CogView等,提供智能API服务。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座,赋予机器像人一样“思考”的能力。
智谱 AI 官网:https://www.zhipuai.cn/
温馨提示: