MacBook Pro 2026 M5
- Qwen3/Qwen3.5 部署方案
硬件配置概览
| 项目 |
配置 |
| 芯片 |
Apple M5 (2026 MacBook Pro) |
| CPU |
10 核中央处理器 |
| GPU |
10 核图形处理器 |
| Neural Engine |
16 核神经网络引擎 |
| 内存带宽 |
~273 GB/s |
| 统一内存 |
24GB (可配置) |
第一部分:Qwen3 系列部署方案
一、M5 芯片性能特点
| 指标 |
M5 (24GB) |
对比 M4 |
| 内存带宽 |
~273 GB/s |
+19-27% |
| 首次 Token 时间 (14B) |
<10 秒 |
更快 |
| 首次 Token 时间 (30B MoE) |
<3 秒 |
更快 |
| Token 生成速度 |
视模型而定 |
+19-27% |
二、Qwen3 模型内存需求
| 模型 |
参数量 |
INT4 量化 |
INT8 量化 |
FP16 |
| Qwen3-0.6B |
0.6B |
~0.8GB |
~1.2GB |
~1.2GB |
| Qwen3-1.8B |
1.8B |
~2.4GB |
~3.6GB |
~3.6GB |
| Qwen3-4B |
4B |
~4.8GB |
~8GB |
~8GB |
| Qwen3-8B |
8B |
~9.6GB |
~16GB |
~16GB |
| Qwen3-14B |
14B |
~16GB |
~28GB |
~28GB |
| Qwen3-32B |
32B |
~38GB |
~64GB |
~64GB |
三、24GB 内存推荐配置
3.1 推荐方案
| 运行方案 |
模型 |
量化精度 |
预估速度 |
内存占用 |
适用场景 |
| 推荐 |
Qwen3-8B |
INT4 |
20-25 tok/s |
~12GB |
日常对话、代码生成 |
| 推荐 |
Qwen3-14B |
INT4 |
12-15 tok/s |
~18GB |
复杂推理任务 |
| 可选 |
Qwen3-4B |
INT8 |
40-50 tok/s |
~10GB |
超快响应 |
| 可选 |
Qwen3-1.8B |
FP16 |
60-80 tok/s |
~5GB |
轻量快速任务 |
3.2 性能预估
基于 M5 芯片 19-27% 相比 M4 的性能提升:
| 模型 |
M4 速度 |
M5 预估速度 |
提升 |
| Qwen3-8B INT4 |
~18 tok/s |
~22 tok/s |
+22% |
| Qwen3-14B INT4 |
~10 tok/s |
~12 tok/s |
+20% |
| Qwen3-4B INT8 |
~35 tok/s |
~42 tok/s |
+20% |
四、Qwen3 部署方法
4.1 方法一:MLX(推荐)
安装:
下载模型:
# INT4 版本(推荐)
huggingface-cli download mlx-community/Qwen3-8B-4bit --local-dir ./Qwen3-8B-4bit
huggingface-cli download mlx-community/Qwen3-4B-4bit --local-dir ./Qwen3-4B-4bit
运行代码:
from mlx_lm import load, generate
model_path = "mlx-community/Qwen3-8B-4bit"
model, tokenizer = load(model_path)
response = generate(
model,
tokenizer,
prompt="你好,请介绍一下量子计算",
max_tokens=512
)
print(response)
启动 API 服务:
mlx_lm.server --model mlx-community/Qwen3-8B-4bit --port 8080
4.2 方法二:Ollama
# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 运行
ollama run qwen3:8b
ollama run qwen3:14b
ollama run qwen3:4b
4.3 方法三:LM Studio
# 下载地址:https://lmstudio.ai/
# 在 LM Studio 中:
# 1. 搜索 "Qwen3"
# 2. 下载 MLX 版本
# 3. 加载模型并使用
第二部分:Qwen3.5
系列部署方案
一、Qwen3.5 模型内存需求
| 模型 |
参数量 |
INT4 量化 |
INT8 量化 |
FP16 |
| Qwen3.5-0.5B |
0.5B |
~0.7GB |
~1GB |
~1GB |
| Qwen3.5-1.5B |
1.5B |
~2GB |
~3GB |
~3GB |
| Qwen3.5-3B |
3B |
~3.6GB |
~6GB |
~6GB |
| Qwen3.5-4B |
4B |
~4.8GB |
~8GB |
~8GB |
| Qwen3.5-7B |
7B |
~8GB |
~14GB |
~14GB |
| Qwen3.5-14B |
14B |
~16GB |
~28GB |
~28GB |
| Qwen3.5-27B |
27B |
~32GB |
~54GB |
~54GB |
二、24GB 内存推荐配置
2.1 推荐方案
| 运行方案 |
模型 |
量化精度 |
预估速度 |
内存占用 |
适用场景 |
| 强推 |
Qwen3.5-7B |
INT4 |
25-35 tok/s |
~10GB |
日常对话、代码 |
| 推荐 |
Qwen3.5-14B |
INT4 |
15-18 tok/s |
~18GB |
复杂推理 |
| 可选 |
Qwen3.5-4B |
INT8 |
45-55 tok/s |
~10GB |
超快响应 |
| 极限 |
Qwen3.5-14B |
INT4 + 小 KV |
12-15 tok/s |
~22GB |
更大上下文 |
2.2 性能预估(M5 vs M4)
| 模型 |
M4 速度 |
M5 预估速度 |
提升 |
| Qwen3.5-7B INT4 |
~28 tok/s |
~33 tok/s |
+18% |
| Qwen3.5-14B INT4 |
~12 tok/s |
~15 tok/s |
+25% |
| Qwen3.5-4B INT8 |
~40 tok/s |
~48 tok/s |
+20% |
2.3 首次 Token 时间
| 模型 |
M5 首次 Token |
| Qwen3.5-7B |
<5 秒 |
| Qwen3.5-14B |
<10 秒 |
| Qwen3.5-4B |
<3 秒 |
三、Qwen3.5 部署方法
3.1 方法一:MLX(推荐,性能最佳)
下载模型:
# 官方 MLX INT4 版本
huggingface-cli download mlx-community/Qwen3.5-4B-MLX-4bit --local-dir ./Qwen3.5-4B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-7B-MLX-4bit --local-dir ./Qwen3.5-7B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-14B-MLX-4bit --local-dir ./Qwen3.5-14B-MLX-4bit
运行代码:
from mlx_lm import load, generate
# 推荐:Qwen3.5-7B INT4
model_path = "mlx-community/Qwen3.5-7B-MLX-4bit"
model, tokenizer = load(model_path)
response = generate(
model,
tokenizer,
prompt="用中文解释机器学习",
max_tokens=1024,
temp=0.7
)
print(response)
API 服务:
# 启动 API 服务
mlx_lm.server --model mlx-community/Qwen3.5-7B-MLX-4bit --port 8080
# 测试
curl -X POST http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages":[{"role":"user","content":"你好"}],"model":"qwen3.5-7b"}'
3.2 方法二:Ollama
# 查看可用版本
ollama search qwen3.5
# 运行
ollama run qwen3.5:7b
ollama run qwen3.5:14b
ollama run qwen3.5:4b
# 自定义配置
cat > Modelfile << 'EOF'
FROM qwen3.5:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
EOF
ollama create qwen3.5-custom -f Modelfile
ollama run qwen3.5-custom
3.3 方法三:LM Studio
# 下载:https://lmstudio.ai/
# 配置建议:
# - GPU Acceleration: Metal
# - Context Length: 4096
# - Batch Size: 512
第三部分:快速启动命令
推荐配置(24GB 内存)
方案一:追求平衡(推荐)
# Qwen3.5-7B INT4 - 速度与能力平衡
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-7B-MLX-4bit --port 8080
# 预估速度:30+ tok/s
# 内存占用:~10GB
方案二:追求速度
# Qwen3.5-4B INT8 - 最快响应
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-4B-MLX-8bit --port 8080
# 预估速度:45-55 tok/s
# 内存占用:~10GB
方案三:追求能力
# Qwen3.5-14B INT4 - 最强能力
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-14B-MLX-4bit --port 8080
# 预估速度:15-18 tok/s
# 内存占用:~18GB
方案四:Ollama 极简
# 一行命令开始
ollama run qwen3.5:7b
第四部分:模型下载汇总
MLX 优化版本
| 模型 |
下载链接 |
大小 |
| Qwen3.5-4B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-4B-MLX-4bit |
~4.8GB |
| Qwen3.5-4B-MLX-8bit |
huggingface.co/mlx-community/Qwen3.5-4B-MLX-8bit |
~8GB |
| Qwen3.5-7B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-7B-MLX-4bit |
~8GB |
| Qwen3.5-14B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-14B-MLX-4bit |
~16GB |
| Qwen3-8B-4bit |
huggingface.co/mlx-community/Qwen3-8B-4bit |
~9.6GB |
| Qwen3-4B-4bit |
huggingface.co/mlx-community/Qwen3-4B-4bit |
~4.8GB |
GGUF 量化版本
| 模型 |
下载链接 |
| Qwen3.5-7B-Q4_K_M |
huggingface.co/Qwen/Qwen3.5-7B-GGUF |
| Qwen3.5-14B-Q4_K_M |
huggingface.co/Qwen/Qwen3.5-14B-GGUF |
第五部分:性能优化
MLX 优化技巧
# 1. 调整批处理大小
from mlx_lm import generate
response = generate(
model,
tokenizer,
prompt="你的问题",
max_tokens=512,
batch_size=512 # 增加批处理
)
# 2. 使用流式输出
from mlx_lm import stream_generate
for token in stream_generate(model, tokenizer, prompt):
print(token, end="", flush=True)
Ollama 优化
# 调整 GPU 层数
export OLLAMA_GPU_LAYERS=24
export OLLAMA_NUM_THREADS=8
# 调整上下文
/param num_ctx 8192
LM Studio 优化设置
Settings → Performance:
- GPU Acceleration: Metal ✓
- Context Length: 8192
- Batch Size: 512
- Threads: Auto
- KV Cache: 80%
总结
按需求推荐
| 需求场景 |
推荐模型 |
量化 |
预估速度 |
| 日常对话 |
Qwen3.5-7B |
INT4 |
30-35 tok/s |
| 代码生成 |
Qwen3.5-14B |
INT4 |
15-18 tok/s |
| 超快响应 |
Qwen3.5-4B |
INT8 |
45-55 tok/s |
| 轻量任务 |
Qwen3-8B |
INT4 |
20-25 tok/s |
M5 芯片优势
- 19-27% 性能提升 - 相比 M4 更快的 token 生成
- 首次 Token <10 秒 - 14B 模型快速响应
- Neural Accelerators - GPU 内置神经引擎加速
- 能效优秀 - 笔记本电池可支持长时间推理
内存规划
24GB 统一内存分配建议: - 模型权重:~16GB(INT4) - KV Cache:~4GB -
系统/其他:~4GB - 总计:~24GB(刚好够用)
文档更新时间: 2026-03-07
适用设备: MacBook Pro 2026 (M5 芯片, 24GB
统一内存)