我最近一直在測 Qwen 3.6 27B 的各種版本,想搞懂一個問題:模型名稱後面那些字,到底代表什麼?
MLX-8bit、UD-MLX-4bit、MXFP4、NVFP4、MTP——每次看到新的量化格式,都好像在猜謎。
從一個簡單的測試開始
事情是這樣開始的。我在 M5 Max 128GB 上跑了兩個版本的 Qwen 3.6 27B:
- 標準 FP8 量化(沒有 MTP):約 13 tok/s
- FP8 + MTP(Multi-Token Prediction):約 17-18 tok/s
差了差不多 30-40% 的速度。同樣的模型、同樣的硬體、同樣的量化精度,只是多了一個 MTP。
這讓我很好奇。MTP 到底是什麼?它真的只是「快了一點」,還是背後有更重要的事?
MTP 不是量化格式
很多新手(包括一開始的我)會以為 MTP 是另一種量化方式——像是 4-bit 或 8-bit 那種。
其實不是。
MTP 是推論加速技術,不是權重壓縮。它不改模型的精度,不改模型的大小,只是讓模型在生成文字時,每次前向傳播可以同时預測多個 token,而不是只能一個一個來。
具體來說:模型內建了一組「預測頭」,會同時猜接下來 2-3 個 token 可能是什麼。然後主模型驗證這些猜測,接受的留下,拒絕的重跑。
所以 MTP 模型跟非 MTP 模型,輸出品質是一模一樣的。它只是變快了。
FP8 為什麼比 4-bit 好
另一個讓我困惑的事是:模型卡上寫「original FP8 variant」,那 FP8 到底算幾 bit?
答案是:FP8 就是 8 bit,只是它是浮點數格式,不是整數。
| 格式 | 位元數 | 精度 | 模型大小 |
|---|---|---|---|
| FP16 / BF16 | 16 bit | 最高 | 最大 |
| FP8 | 8 bit(浮點) | 接近 FP16 | 約一半 |
| INT4 / FP4 | 4 bit | 明顯下降 | 約四分之一 |
Qwen 官方的 FP8 量化用的是 block size 128 的細粒度方法,性能指標幾乎跟原始模型相同。這代表你在速度跟品質之間找到了一個很平衡的點。
4-bit 當然更省記憶體,但品質損失是實打實的。如果你記憶體夠用,FP8 是明顯更好的選擇。
我的最終設定
經過這一輪測試,我現在跑的配置是:
- 模型:Qwen 3.6 27B MTP
- 量化:FP8
- 後端:oMLX(基於 MLX 的 OpenAI 相容 API)
- 速度:17-18 tok/s
這個組合在我 M5 Max 128GB 上跑得穩,品質好,速度也夠用。寫程式、debug、寫文章,全都在這個環境下完成。
本地模型的真實優勢
很多人問我:本地模型跟雲端比,真的值得嗎?
我的答案是:值得,但不是因為能力多強。
本地模型的真正優勢是——你不怕花錢地犯錯。
沒有 token 計費的壓力,沒有額度用盡的焦慮,沒有 API 限速的煩惱。你丟進去,它給你答案,錯了就再丟一次。因為是在本機跑,試錯成本趨近於零。
這比什麼「跟雲端模型能力差不多」之類的說法重要得多。
這個模式可以復用
TrackPal 的 bug 是這樣修的。今天的 MTP 研究也是這樣跑出來的。
不知道答案就寫程式去測,測出來了。不知道 MTP 快多少就實際跑兩次,數字擺在面前了。
本地模型教會我一件事:很多時候你不需要更聰明的工具,你只需要更不怕犯錯的環境。
而這個環境,現在就在你桌子上。
