MacBook Pro 2026 M5 - Qwen 部署方案

MacBook Pro 2026 M5 - Qwen3/Qwen3.5 部署方案

硬件配置概览

项目 配置
芯片 Apple M5 (2026 MacBook Pro)
CPU 10 核中央处理器
GPU 10 核图形处理器
Neural Engine 16 核神经网络引擎
内存带宽 ~273 GB/s
统一内存 24GB (可配置)

第一部分:Qwen3 系列部署方案

一、M5 芯片性能特点

指标 M5 (24GB) 对比 M4
内存带宽 ~273 GB/s +19-27%
首次 Token 时间 (14B) <10 秒 更快
首次 Token 时间 (30B MoE) <3 秒 更快
Token 生成速度 视模型而定 +19-27%

二、Qwen3 模型内存需求

模型 参数量 INT4 量化 INT8 量化 FP16
Qwen3-0.6B 0.6B ~0.8GB ~1.2GB ~1.2GB
Qwen3-1.8B 1.8B ~2.4GB ~3.6GB ~3.6GB
Qwen3-4B 4B ~4.8GB ~8GB ~8GB
Qwen3-8B 8B ~9.6GB ~16GB ~16GB
Qwen3-14B 14B ~16GB ~28GB ~28GB
Qwen3-32B 32B ~38GB ~64GB ~64GB

三、24GB 内存推荐配置

3.1 推荐方案

运行方案 模型 量化精度 预估速度 内存占用 适用场景
推荐 Qwen3-8B INT4 20-25 tok/s ~12GB 日常对话、代码生成
推荐 Qwen3-14B INT4 12-15 tok/s ~18GB 复杂推理任务
可选 Qwen3-4B INT8 40-50 tok/s ~10GB 超快响应
可选 Qwen3-1.8B FP16 60-80 tok/s ~5GB 轻量快速任务

3.2 性能预估

基于 M5 芯片 19-27% 相比 M4 的性能提升:

模型 M4 速度 M5 预估速度 提升
Qwen3-8B INT4 ~18 tok/s ~22 tok/s +22%
Qwen3-14B INT4 ~10 tok/s ~12 tok/s +20%
Qwen3-4B INT8 ~35 tok/s ~42 tok/s +20%

四、Qwen3 部署方法

4.1 方法一:MLX(推荐)

安装:

pip install mlx-lm

下载模型:

# INT4 版本(推荐)
huggingface-cli download mlx-community/Qwen3-8B-4bit --local-dir ./Qwen3-8B-4bit
huggingface-cli download mlx-community/Qwen3-4B-4bit --local-dir ./Qwen3-4B-4bit

运行代码:

from mlx_lm import load, generate

model_path = "mlx-community/Qwen3-8B-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="你好,请介绍一下量子计算",
    max_tokens=512
)
print(response)

启动 API 服务:

mlx_lm.server --model mlx-community/Qwen3-8B-4bit --port 8080

4.2 方法二:Ollama

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 运行
ollama run qwen3:8b
ollama run qwen3:14b
ollama run qwen3:4b

4.3 方法三:LM Studio

# 下载地址:https://lmstudio.ai/

# 在 LM Studio 中:
# 1. 搜索 "Qwen3"
# 2. 下载 MLX 版本
# 3. 加载模型并使用

第二部分:Qwen3.5 系列部署方案

一、Qwen3.5 模型内存需求

模型 参数量 INT4 量化 INT8 量化 FP16
Qwen3.5-0.5B 0.5B ~0.7GB ~1GB ~1GB
Qwen3.5-1.5B 1.5B ~2GB ~3GB ~3GB
Qwen3.5-3B 3B ~3.6GB ~6GB ~6GB
Qwen3.5-4B 4B ~4.8GB ~8GB ~8GB
Qwen3.5-7B 7B ~8GB ~14GB ~14GB
Qwen3.5-14B 14B ~16GB ~28GB ~28GB
Qwen3.5-27B 27B ~32GB ~54GB ~54GB

二、24GB 内存推荐配置

2.1 推荐方案

运行方案 模型 量化精度 预估速度 内存占用 适用场景
强推 Qwen3.5-7B INT4 25-35 tok/s ~10GB 日常对话、代码
推荐 Qwen3.5-14B INT4 15-18 tok/s ~18GB 复杂推理
可选 Qwen3.5-4B INT8 45-55 tok/s ~10GB 超快响应
极限 Qwen3.5-14B INT4 + 小 KV 12-15 tok/s ~22GB 更大上下文

2.2 性能预估(M5 vs M4)

模型 M4 速度 M5 预估速度 提升
Qwen3.5-7B INT4 ~28 tok/s ~33 tok/s +18%
Qwen3.5-14B INT4 ~12 tok/s ~15 tok/s +25%
Qwen3.5-4B INT8 ~40 tok/s ~48 tok/s +20%

2.3 首次 Token 时间

模型 M5 首次 Token
Qwen3.5-7B <5 秒
Qwen3.5-14B <10 秒
Qwen3.5-4B <3 秒

三、Qwen3.5 部署方法

3.1 方法一:MLX(推荐,性能最佳)

下载模型:

# 官方 MLX INT4 版本
huggingface-cli download mlx-community/Qwen3.5-4B-MLX-4bit --local-dir ./Qwen3.5-4B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-7B-MLX-4bit --local-dir ./Qwen3.5-7B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-14B-MLX-4bit --local-dir ./Qwen3.5-14B-MLX-4bit

运行代码:

from mlx_lm import load, generate

# 推荐:Qwen3.5-7B INT4
model_path = "mlx-community/Qwen3.5-7B-MLX-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="用中文解释机器学习",
    max_tokens=1024,
    temp=0.7
)
print(response)

API 服务:

# 启动 API 服务
mlx_lm.server --model mlx-community/Qwen3.5-7B-MLX-4bit --port 8080

# 测试
curl -X POST http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"messages":[{"role":"user","content":"你好"}],"model":"qwen3.5-7b"}'

3.2 方法二:Ollama

# 查看可用版本
ollama search qwen3.5

# 运行
ollama run qwen3.5:7b
ollama run qwen3.5:14b
ollama run qwen3.5:4b

# 自定义配置
cat > Modelfile << 'EOF'
FROM qwen3.5:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
EOF

ollama create qwen3.5-custom -f Modelfile
ollama run qwen3.5-custom

3.3 方法三:LM Studio

# 下载:https://lmstudio.ai/

# 配置建议:
# - GPU Acceleration: Metal
# - Context Length: 4096
# - Batch Size: 512

第三部分:快速启动命令

推荐配置(24GB 内存)

方案一:追求平衡(推荐)

# Qwen3.5-7B INT4 - 速度与能力平衡
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-7B-MLX-4bit --port 8080

# 预估速度:30+ tok/s
# 内存占用:~10GB

方案二:追求速度

# Qwen3.5-4B INT8 - 最快响应
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-4B-MLX-8bit --port 8080

# 预估速度:45-55 tok/s
# 内存占用:~10GB

方案三:追求能力

# Qwen3.5-14B INT4 - 最强能力
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-14B-MLX-4bit --port 8080

# 预估速度:15-18 tok/s
# 内存占用:~18GB

方案四:Ollama 极简

# 一行命令开始
ollama run qwen3.5:7b

第四部分:模型下载汇总

MLX 优化版本

模型 下载链接 大小
Qwen3.5-4B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-4B-MLX-4bit ~4.8GB
Qwen3.5-4B-MLX-8bit huggingface.co/mlx-community/Qwen3.5-4B-MLX-8bit ~8GB
Qwen3.5-7B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-7B-MLX-4bit ~8GB
Qwen3.5-14B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-14B-MLX-4bit ~16GB
Qwen3-8B-4bit huggingface.co/mlx-community/Qwen3-8B-4bit ~9.6GB
Qwen3-4B-4bit huggingface.co/mlx-community/Qwen3-4B-4bit ~4.8GB

GGUF 量化版本

模型 下载链接
Qwen3.5-7B-Q4_K_M huggingface.co/Qwen/Qwen3.5-7B-GGUF
Qwen3.5-14B-Q4_K_M huggingface.co/Qwen/Qwen3.5-14B-GGUF

第五部分:性能优化

MLX 优化技巧

# 1. 调整批处理大小
from mlx_lm import generate

response = generate(
    model,
    tokenizer,
    prompt="你的问题",
    max_tokens=512,
    batch_size=512  # 增加批处理
)

# 2. 使用流式输出
from mlx_lm import stream_generate

for token in stream_generate(model, tokenizer, prompt):
    print(token, end="", flush=True)

Ollama 优化

# 调整 GPU 层数
export OLLAMA_GPU_LAYERS=24
export OLLAMA_NUM_THREADS=8

# 调整上下文
/param num_ctx 8192

LM Studio 优化设置

Settings → Performance:
- GPU Acceleration: Metal ✓
- Context Length: 8192
- Batch Size: 512
- Threads: Auto
- KV Cache: 80%

总结

按需求推荐

需求场景 推荐模型 量化 预估速度
日常对话 Qwen3.5-7B INT4 30-35 tok/s
代码生成 Qwen3.5-14B INT4 15-18 tok/s
超快响应 Qwen3.5-4B INT8 45-55 tok/s
轻量任务 Qwen3-8B INT4 20-25 tok/s

M5 芯片优势

  1. 19-27% 性能提升 - 相比 M4 更快的 token 生成
  2. 首次 Token <10 秒 - 14B 模型快速响应
  3. Neural Accelerators - GPU 内置神经引擎加速
  4. 能效优秀 - 笔记本电池可支持长时间推理

内存规划

24GB 统一内存分配建议: - 模型权重:~16GB(INT4) - KV Cache:~4GB - 系统/其他:~4GB - 总计:~24GB(刚好够用)


文档更新时间: 2026-03-07 适用设备: MacBook Pro 2026 (M5 芯片, 24GB 统一内存)