M1 Pro 部署大模型 Llama2 ❌ ⁓ Llama3 ✅

由于这篇博文拖延过久, 已经迎来了 Llama 的船新版本 🤣,并且也发现了更加便捷的部署方式 🎉ollama🎉。

ollama 部署方式

模型

安装 ollama

下载 llama3 模型并运行

ollama run llama3

更多大模型可供选择 👉 links

UI

OpenWebUI

docker 安装 open-webui

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问 localhost:3000


但在 MAC 上使用 docker 占用了太多内存,我们可以使用 non-Docker 的原生安装方法。

需要 Python 3.11

安装

pip install open-webui

运行

open-webui serve

这个方法虽然占用的内存大大减小了,但是怎么好像模型变傻了呢?

说话只会秃噜一个字。

😅 算了,还是直接在命令行里使用吧,速度还远比 UI 界面快。

构建中文模型

Llama3 总是倾向于使用英文回答问题,中文提问的体验很不好。

ollama 可以客制化模型,为模型设置一些参数。
官方文档 👉 links

  1. 创建文件 Modelfile
FROM llama3

SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。

RULES:

- Always response in Simplified Chinese, not English.
"""
  1. 构建模型
ollama create llama3zh -f Modelfile

References

[1] macbook m1 本地部署llama2模型
[2] 使用 MacBook Pro M1 16G 运行 Llama 2 7B (Apple Silicon 通用方法)
[3] Run Llama 2 on your own Mac using LLM and Homebrew
[4] 一日一技:如何强迫LLama3用中文回复?


M1 Pro 部署大模型 Llama2 ❌ ⁓ Llama3 ✅
http://guoguo.host/blog/p/5efce823.html
作者
Guoguo
发布于
2024年1月24日
许可协议