WebLLM：浏览器内的语言模型加速技术

WebLLM 是一个利用 WebGPU 加速的 JavaScript 包，旨在直接在网页浏览器中部署和加速语言模型聊天。此包完全兼容 OpenAI API，意味着你可以在任何开源模型上本地使用与 OpenAI 相同的 API。

home_open_Web_LLM_1

主要功能

模块化结构: WebLLM 本身不包括 UI 组件，而是设计为可模块化地连接到任何 UI 组件。
完全兼容 OpenAI API: 支持 json-mode、函数调用、流式传输等功能。
隐私保护与硬件加速: 在浏览器内运行，保障用户隐私的同时享受 GPU 加速的优势。

快速开始指南

安装: WebLLM 可通过 npm 包安装。建议遵循文档和入门指南来构建你的 web 应用。

npm install @mlc-ai/web-llm

npm install @mlc-ai/web-llm<br />

简单示例: 下面的代码展示了如何在网页上生成流式响应。

    
   
    
    
   
    import * as webllm from "@mlc-ai/web-llm";

async function main() {
  const initProgressCallback = (report) => {
    const label = document.getElementById("init-label");
    label.innerText = report.text;
  };
  const engine = await webllm.CreateEngine("Llama-3-8B-Instruct-q4f32_1", {initProgressCallback});
  const response = await engine.chat.completions.create({
    messages: [{"role": "user", "content": "Tell me about Pittsburgh."}]
  });
  console.log(response);
}

main();

    import * as webllm from “@mlc-ai/web-llm”;</p>
<p>async function main() {<br />
  const initProgressCallback = (report) => {<br />
    const label = document.getElementById(“init-label”);<br />
    label.innerText = report.text;<br />
  };<br />
  const engine = await webllm.CreateEngine(“Llama-3-8B-Instruct-q4f32_1”, {initProgressCallback});<br />
  const response = await engine.chat.completions.create({<br />
    messages: [{“role”: “user”, “content”: “Tell me about Pittsburgh.”}]<br />
  });<br />
  console.log(response);<br />
}</p>
<p>main();<br />

构建 WebLLM 应用

你可以在 examples 目录下找到完整的聊天应用示例，并通过文档学习如何构建和自定义你自己的聊天应用。

扩展和定制

WebLLM 支持通过 model_url 和 model_lib_url 自定义和扩展模型和权重，使你能够部署特定的模型到你的 web 应用中。

通过 WebLLM，我能够直接在浏览器中与语言模型互动，无需依赖服务器支持，这不仅提高了响应速度，还增强了用户隐私保护。WebLLM 的模块化设计和 OpenAI API 的兼容性使得开发自定义的 AI 助手变得前所未有的简单。

温馨提示：

文章标题：WebLLM：浏览器内的语言模型加速技术

文章链接：https://yuntunft.cn/38559.html

更新时间：2024年07月05日

{{userData.name}}已认证

WebLLM：浏览器内的语言模型加速技术

主要功能

快速开始指南

构建 WebLLM 应用

扩展和定制

AIGC研究中心

阿铎

AI工具

AI咨询

A联系我们

微信公众号最新资讯

微信公众号最新资讯

云图NFT导航站