M1 Pro 部署大模型 Llama2 ❌ ⁓ Llama3 ✅
由于这篇博文拖延过久, 已经迎来了 Llama 的船新版本 🤣,并且也发现了更加便捷的部署方式 🎉ollama🎉。
ollama 部署方式
模型
安装 ollama
下载 llama3 模型并运行
ollama run llama3
更多大模型可供选择 👉 links
UI
docker 安装 open-webui
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
但在 MAC 上使用 docker 占用了太多内存,我们可以使用 non-Docker 的原生安装方法。
需要 Python 3.11
安装
pip install open-webui
运行
open-webui serve
这个方法虽然占用的内存大大减小了,但是怎么好像模型变傻了呢?
说话只会秃噜一个字。


😅 算了,还是直接在命令行里使用吧,速度还远比 UI 界面快。
构建中文模型
Llama3 总是倾向于使用英文回答问题,中文提问的体验很不好。
ollama 可以客制化模型,为模型设置一些参数。
官方文档 👉 links
- 创建文件
Modelfile
FROM llama3
SYSTEM """
尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。
RULES:
- Always response in Simplified Chinese, not English.
"""
- 构建模型
ollama create llama3zh -f Modelfile
References
[1] macbook m1 本地部署llama2模型
[2] 使用 MacBook Pro M1 16G 运行 Llama 2 7B (Apple Silicon 通用方法)
[3] Run Llama 2 on your own Mac using LLM and Homebrew
[4] 一日一技:如何强迫LLama3用中文回复?
M1 Pro 部署大模型 Llama2 ❌ ⁓ Llama3 ✅
http://guoguo.host/blog/p/5efce823.html