当前位置:首页AI 开源项目MLC LLM:大型语言模型的高性能部署解决方案

MLC LLM:大型语言模型的高性能部署解决方案

MLC LLM(Machine Learning Compilation for Large Language Models)是一个为大型语言模型提供的高性能通用部署解决方案。该项目的使命是利用机器学习编译技术,使每个人都能在自己的设备上本地开发、优化和部署AI模型。

平台与硬件支持

MLC LLM 支持以下平台和硬件:

  • AMD GPU / NVIDIA GPU / Intel GPU:支持 Vulkan, ROCm, CUDA
  • Apple GPU:支持 macOS 上的 Metal (dGPU) 和 iOS/iPadOS 上的 Metal
  • Web Browser:支持 WebGPU 和 WASM
  • Android:支持 Adreno GPU 和 Mali GPU 的 OpenCL

home_open_MLC_LLM_1

快速开始

MLC LLM 使用 4 位量化的 8B Llama-3 模型进行演示。您可以通过以下命令尝试聊天 CLI 或使用 Python API:

    
 
mlc_llm chat HF://mlc-ai/Llama-3-8B-Instruct-q4f16_1-MLC
pythonCopy codefrom mlc_llm import MLCEngine

model = "HF://mlc-ai/Llama-3-8B-Instruct-q4f16_1-MLC"
engine = MLCEngine(model)
response = engine.chat.completions.create(
    messages=[{"role": "user", "content": "What is the meaning of life?"}],
    model=model,
    stream=True
)

安装与验证

推荐在隔离的 conda 虚拟环境中安装 MLC LLM,安装后可通过以下命令验证:

    
 
python -c "import mlc_llm; print(mlc_llm.__path__)"

REST 服务器部署

您也可以部署一个 REST 服务器,通过 OpenAI 兼容的 API 提供服务:

    
 
mlc_llm serve HF://mlc-ai/Llama-3-8B-Instruct-q4f16_1-MLC

API 支持

MLC LLM 提供多种 API 支持,包括 Python API、OpenAI 兼容的 REST-API、C++ API、JavaScript API 和 Web LLM、Swift API for iOS App、Java API 和 Android App。

通过 MLC LLM,我能够在本地设备上直接部署和运行大型语言模型,这不仅提高了运行效率,还增强了数据安全性。

温馨提示:

文章标题:MLC LLM:大型语言模型的高性能部署解决方案

文章链接:https://yuntunft.cn/38543.html

更新时间:2024年07月05日

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索