MacBook Pro 2026 M5 - Qwen 部署方案

MacBook Pro 2026 M5 - Qwen3/Qwen3.5 部署方案

硬件配置概览

项目	配置
芯片	Apple M5 (2026 MacBook Pro)
CPU	10 核中央处理器
GPU	10 核图形处理器
Neural Engine	16 核神经网络引擎
内存带宽	~273 GB/s
统一内存	24GB (可配置)

第一部分：Qwen3 系列部署方案

一、M5 芯片性能特点

指标	M5 (24GB)	对比 M4
内存带宽	~273 GB/s	+19-27%
首次 Token 时间 (14B)	<10 秒	更快
首次 Token 时间 (30B MoE)	<3 秒	更快
Token 生成速度	视模型而定	+19-27%

二、Qwen3 模型内存需求

模型	参数量	INT4 量化	INT8 量化	FP16
Qwen3-0.6B	0.6B	~0.8GB	~1.2GB	~1.2GB
Qwen3-1.8B	1.8B	~2.4GB	~3.6GB	~3.6GB
Qwen3-4B	4B	~4.8GB	~8GB	~8GB
Qwen3-8B	8B	~9.6GB	~16GB	~16GB
Qwen3-14B	14B	~16GB	~28GB	~28GB
Qwen3-32B	32B	~38GB	~64GB	~64GB

三、24GB 内存推荐配置

3.1 推荐方案

运行方案	模型	量化精度	预估速度	内存占用	适用场景
推荐	Qwen3-8B	INT4	20-25 tok/s	~12GB	日常对话、代码生成
推荐	Qwen3-14B	INT4	12-15 tok/s	~18GB	复杂推理任务
可选	Qwen3-4B	INT8	40-50 tok/s	~10GB	超快响应
可选	Qwen3-1.8B	FP16	60-80 tok/s	~5GB	轻量快速任务

3.2 性能预估

基于 M5 芯片 19-27% 相比 M4 的性能提升：

模型	M4 速度	M5 预估速度	提升
Qwen3-8B INT4	~18 tok/s	~22 tok/s	+22%
Qwen3-14B INT4	~10 tok/s	~12 tok/s	+20%
Qwen3-4B INT8	~35 tok/s	~42 tok/s	+20%

四、Qwen3 部署方法

4.1 方法一：MLX（推荐）

安装：

pip install mlx-lm

下载模型：

# INT4 版本（推荐）
huggingface-cli download mlx-community/Qwen3-8B-4bit --local-dir ./Qwen3-8B-4bit
huggingface-cli download mlx-community/Qwen3-4B-4bit --local-dir ./Qwen3-4B-4bit

运行代码：

from mlx_lm import load, generate

model_path = "mlx-community/Qwen3-8B-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="你好，请介绍一下量子计算",
    max_tokens=512
)
print(response)

启动 API 服务：

mlx_lm.server --model mlx-community/Qwen3-8B-4bit --port 8080

4.2 方法二：Ollama

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 运行
ollama run qwen3:8b
ollama run qwen3:14b
ollama run qwen3:4b

4.3 方法三：LM Studio

# 下载地址：https://lmstudio.ai/

# 在 LM Studio 中：
# 1. 搜索 "Qwen3"
# 2. 下载 MLX 版本
# 3. 加载模型并使用

第二部分：Qwen3.5 系列部署方案

一、Qwen3.5 模型内存需求

模型	参数量	INT4 量化	INT8 量化	FP16
Qwen3.5-0.5B	0.5B	~0.7GB	~1GB	~1GB
Qwen3.5-1.5B	1.5B	~2GB	~3GB	~3GB
Qwen3.5-3B	3B	~3.6GB	~6GB	~6GB
Qwen3.5-4B	4B	~4.8GB	~8GB	~8GB
Qwen3.5-7B	7B	~8GB	~14GB	~14GB
Qwen3.5-14B	14B	~16GB	~28GB	~28GB
Qwen3.5-27B	27B	~32GB	~54GB	~54GB

二、24GB 内存推荐配置

2.1 推荐方案

运行方案	模型	量化精度	预估速度	内存占用	适用场景
强推	Qwen3.5-7B	INT4	25-35 tok/s	~10GB	日常对话、代码
推荐	Qwen3.5-14B	INT4	15-18 tok/s	~18GB	复杂推理
可选	Qwen3.5-4B	INT8	45-55 tok/s	~10GB	超快响应
极限	Qwen3.5-14B	INT4 + 小 KV	12-15 tok/s	~22GB	更大上下文

2.2 性能预估（M5 vs M4）

模型	M4 速度	M5 预估速度	提升
Qwen3.5-7B INT4	~28 tok/s	~33 tok/s	+18%
Qwen3.5-14B INT4	~12 tok/s	~15 tok/s	+25%
Qwen3.5-4B INT8	~40 tok/s	~48 tok/s	+20%

2.3 首次 Token 时间

模型	M5 首次 Token
Qwen3.5-7B	<5 秒
Qwen3.5-14B	<10 秒
Qwen3.5-4B	<3 秒

三、Qwen3.5 部署方法

3.1 方法一：MLX（推荐，性能最佳）

下载模型：

# 官方 MLX INT4 版本
huggingface-cli download mlx-community/Qwen3.5-4B-MLX-4bit --local-dir ./Qwen3.5-4B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-7B-MLX-4bit --local-dir ./Qwen3.5-7B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-14B-MLX-4bit --local-dir ./Qwen3.5-14B-MLX-4bit

运行代码：

from mlx_lm import load, generate

# 推荐：Qwen3.5-7B INT4
model_path = "mlx-community/Qwen3.5-7B-MLX-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="用中文解释机器学习",
    max_tokens=1024,
    temp=0.7
)
print(response)

API 服务：

# 启动 API 服务
mlx_lm.server --model mlx-community/Qwen3.5-7B-MLX-4bit --port 8080

# 测试
curl -X POST http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"messages":[{"role":"user","content":"你好"}],"model":"qwen3.5-7b"}'

3.2 方法二：Ollama

# 查看可用版本
ollama search qwen3.5

# 运行
ollama run qwen3.5:7b
ollama run qwen3.5:14b
ollama run qwen3.5:4b

# 自定义配置
cat > Modelfile << 'EOF'
FROM qwen3.5:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
EOF

ollama create qwen3.5-custom -f Modelfile
ollama run qwen3.5-custom

3.3 方法三：LM Studio

# 下载：https://lmstudio.ai/

# 配置建议：
# - GPU Acceleration: Metal
# - Context Length: 4096
# - Batch Size: 512

第三部分：快速启动命令

第四部分：模型下载汇总

MLX 优化版本

模型	下载链接	大小
Qwen3.5-4B-MLX-4bit	huggingface.co/mlx-community/Qwen3.5-4B-MLX-4bit	~4.8GB
Qwen3.5-4B-MLX-8bit	huggingface.co/mlx-community/Qwen3.5-4B-MLX-8bit	~8GB
Qwen3.5-7B-MLX-4bit	huggingface.co/mlx-community/Qwen3.5-7B-MLX-4bit	~8GB
Qwen3.5-14B-MLX-4bit	huggingface.co/mlx-community/Qwen3.5-14B-MLX-4bit	~16GB
Qwen3-8B-4bit	huggingface.co/mlx-community/Qwen3-8B-4bit	~9.6GB
Qwen3-4B-4bit	huggingface.co/mlx-community/Qwen3-4B-4bit	~4.8GB

GGUF 量化版本

模型	下载链接
Qwen3.5-7B-Q4_K_M	huggingface.co/Qwen/Qwen3.5-7B-GGUF
Qwen3.5-14B-Q4_K_M	huggingface.co/Qwen/Qwen3.5-14B-GGUF

第五部分：性能优化

MLX 优化技巧

# 1. 调整批处理大小
from mlx_lm import generate

response = generate(
    model,
    tokenizer,
    prompt="你的问题",
    max_tokens=512,
    batch_size=512  # 增加批处理
)

# 2. 使用流式输出
from mlx_lm import stream_generate

for token in stream_generate(model, tokenizer, prompt):
    print(token, end="", flush=True)

Ollama 优化

# 调整 GPU 层数
export OLLAMA_GPU_LAYERS=24
export OLLAMA_NUM_THREADS=8

# 调整上下文
/param num_ctx 8192

LM Studio 优化设置

Settings → Performance:
- GPU Acceleration: Metal ✓
- Context Length: 8192
- Batch Size: 512
- Threads: Auto
- KV Cache: 80%

总结

按需求推荐

需求场景	推荐模型	量化	预估速度
日常对话	Qwen3.5-7B	INT4	30-35 tok/s
代码生成	Qwen3.5-14B	INT4	15-18 tok/s
超快响应	Qwen3.5-4B	INT8	45-55 tok/s
轻量任务	Qwen3-8B	INT4	20-25 tok/s

M5 芯片优势

19-27% 性能提升 - 相比 M4 更快的 token 生成
首次 Token <10 秒 - 14B 模型快速响应
Neural Accelerators - GPU 内置神经引擎加速
能效优秀 - 笔记本电池可支持长时间推理

内存规划

24GB 统一内存分配建议： - 模型权重：~16GB（INT4） - KV Cache：~4GB - 系统/其他：~4GB - 总计：~24GB（刚好够用）

文档更新时间： 2026-03-07 适用设备： MacBook Pro 2026 (M5 芯片, 24GB 统一内存)