我最近一直在測 Qwen 3.6 27B 的各種版本,想搞懂一個問題:模型名稱後面那些字,到底代表什麼?

MLX-8bit、UD-MLX-4bit、MXFP4、NVFP4、MTP——每次看到新的量化格式,都好像在猜謎。

從一個簡單的測試開始

事情是這樣開始的。我在 M5 Max 128GB 上跑了兩個版本的 Qwen 3.6 27B:

  • 標準 FP8 量化(沒有 MTP):約 13 tok/s
  • FP8 + MTP(Multi-Token Prediction):約 17-18 tok/s

差了差不多 30-40% 的速度。同樣的模型、同樣的硬體、同樣的量化精度,只是多了一個 MTP。

這讓我很好奇。MTP 到底是什麼?它真的只是「快了一點」,還是背後有更重要的事?

MTP 不是量化格式

很多新手(包括一開始的我)會以為 MTP 是另一種量化方式——像是 4-bit 或 8-bit 那種。

其實不是。

MTP 是推論加速技術,不是權重壓縮。它不改模型的精度,不改模型的大小,只是讓模型在生成文字時,每次前向傳播可以同时預測多個 token,而不是只能一個一個來。

具體來說:模型內建了一組「預測頭」,會同時猜接下來 2-3 個 token 可能是什麼。然後主模型驗證這些猜測,接受的留下,拒絕的重跑。

所以 MTP 模型跟非 MTP 模型,輸出品質是一模一樣的。它只是變快了。

FP8 為什麼比 4-bit 好

另一個讓我困惑的事是:模型卡上寫「original FP8 variant」,那 FP8 到底算幾 bit?

答案是:FP8 就是 8 bit,只是它是浮點數格式,不是整數。

格式 位元數 精度 模型大小
FP16 / BF16 16 bit 最高 最大
FP8 8 bit(浮點) 接近 FP16 約一半
INT4 / FP4 4 bit 明顯下降 約四分之一

Qwen 官方的 FP8 量化用的是 block size 128 的細粒度方法,性能指標幾乎跟原始模型相同。這代表你在速度跟品質之間找到了一個很平衡的點。

4-bit 當然更省記憶體,但品質損失是實打實的。如果你記憶體夠用,FP8 是明顯更好的選擇。

我的最終設定

經過這一輪測試,我現在跑的配置是:

  • 模型:Qwen 3.6 27B MTP
  • 量化:FP8
  • 後端:oMLX(基於 MLX 的 OpenAI 相容 API)
  • 速度:17-18 tok/s

這個組合在我 M5 Max 128GB 上跑得穩,品質好,速度也夠用。寫程式、debug、寫文章,全都在這個環境下完成。

本地模型的真實優勢

很多人問我:本地模型跟雲端比,真的值得嗎?

我的答案是:值得,但不是因為能力多強。

本地模型的真正優勢是——你不怕花錢地犯錯

沒有 token 計費的壓力,沒有額度用盡的焦慮,沒有 API 限速的煩惱。你丟進去,它給你答案,錯了就再丟一次。因為是在本機跑,試錯成本趨近於零。

這比什麼「跟雲端模型能力差不多」之類的說法重要得多。

這個模式可以復用

TrackPal 的 bug 是這樣修的。今天的 MTP 研究也是這樣跑出來的。

不知道答案就寫程式去測,測出來了。不知道 MTP 快多少就實際跑兩次,數字擺在面前了。

本地模型教會我一件事:很多時候你不需要更聰明的工具,你只需要更不怕犯錯的環境。

而這個環境,現在就在你桌子上。