MTP 到底快在哪裡：Qwen 3.6 的推論加速實驗

我最近一直在測 Qwen 3.6 27B 的各種版本，想搞懂一個問題：模型名稱後面那些字，到底代表什麼？

MLX-8bit、UD-MLX-4bit、MXFP4、NVFP4、MTP——每次看到新的量化格式，都好像在猜謎。

從一個簡單的測試開始

事情是這樣開始的。我在 M5 Max 128GB 上跑了兩個版本的 Qwen 3.6 27B：

差了差不多 30-40% 的速度。同樣的模型、同樣的硬體、同樣的量化精度，只是多了一個 MTP。

這讓我很好奇。MTP 到底是什麼？它真的只是「快了一點」，還是背後有更重要的事？

很多新手（包括一開始的我）會以為 MTP 是另一種量化方式——像是 4-bit 或 8-bit 那種。

其實不是。

MTP 是推論加速技術，不是權重壓縮。它不改模型的精度，不改模型的大小，只是讓模型在生成文字時，每次前向傳播可以同时預測多個 token，而不是只能一個一個來。

具體來說：模型內建了一組「預測頭」，會同時猜接下來 2-3 個 token 可能是什麼。然後主模型驗證這些猜測，接受的留下，拒絕的重跑。

所以 MTP 模型跟非 MTP 模型，輸出品質是一模一樣的。它只是變快了。

另一個讓我困惑的事是：模型卡上寫「original FP8 variant」，那 FP8 到底算幾 bit？

答案是：FP8 就是 8 bit，只是它是浮點數格式，不是整數。

Qwen 官方的 FP8 量化用的是 block size 128 的細粒度方法，性能指標幾乎跟原始模型相同。這代表你在速度跟品質之間找到了一個很平衡的點。

4-bit 當然更省記憶體，但品質損失是實打實的。如果你記憶體夠用，FP8 是明顯更好的選擇。

經過這一輪測試，我現在跑的配置是：

這個組合在我 M5 Max 128GB 上跑得穩，品質好，速度也夠用。寫程式、debug、寫文章，全都在這個環境下完成。

很多人問我：本地模型跟雲端比，真的值得嗎？

我的答案是：值得，但不是因為能力多強。

本地模型的真正優勢是——你不怕花錢地犯錯。

沒有 token 計費的壓力，沒有額度用盡的焦慮，沒有 API 限速的煩惱。你丟進去，它給你答案，錯了就再丟一次。因為是在本機跑，試錯成本趨近於零。

這比什麼「跟雲端模型能力差不多」之類的說法重要得多。

TrackPal 的 bug 是這樣修的。今天的 MTP 研究也是這樣跑出來的。

不知道答案就寫程式去測，測出來了。不知道 MTP 快多少就實際跑兩次，數字擺在面前了。

本地模型教會我一件事：很多時候你不需要更聰明的工具，你只需要更不怕犯錯的環境。

而這個環境，現在就在你桌子上。