AI 服務的 SLA 問題：當可用性成為奢望

今天 Claude 又出事了。Opus 4.6 和 Sonnet 4.6 從早上開始出現 elevated error rates，同一天 Anthropic 宣布要在尖峰時段加速消耗使用者的 session limit。整個三月，這已經不是第一次，也不會是最後一次。

這讓我想到一個在 hosting 圈很基本、但在 AI 服務幾乎不存在的東西：SLA。

先說可用性，其他先不提

有人會把 SLA 討論帶到品質穩定性、latency、模型版本一致性這些方向。這些都重要，但前提是服務要能用。一個時常掛掉、時常限速的服務，談其他都是空的。

今天要討論的只有一件事：AI 服務到底應不應該對可用性做出承諾？

我認為應該。但現實是，無論是 Anthropic、OpenAI，還是 xAI，目前都沒有針對一般付費使用者做這件事。最接近的實作方案，反而是 OpenRouter 那種聚合層的架構。

OpenRouter 為什麼能接近 SLA

OpenRouter 不是靠自己的基礎設施撐起可用性，而是透過路由——同一個模型，當 Anthropic 自己的端點掛掉，它可以切去 Google Vertex AI 上的 Claude，或是 AWS Bedrock 上的 Claude。模型行為一致，只是換了一條路。

這個區別很關鍵：不是切換到「另一家的 AI」，而是切換同一個模型的不同基礎設施提供商。對使用者來說，效果是一樣的；對服務可用性來說，這才是真正能承諾 SLA 的架構。

YouTuber Theo 很久以前就因為這個原因，選擇不再直接跟 Anthropic 買 API，而是走 Vertex。不是不信任 Claude 這個模型，是不信任 Anthropic 自己的基礎設施。這個判斷在三月份得到了非常充分的驗證。

分開好，還是合併好

這其實是個值得認真討論的問題。Anthropic 身兼「最好的模型研究公司」和「直接服務使用者的平台」兩個角色，這兩件事的能力要求完全不同。

跑一個全球高可用的基礎設施，是 Google 和 AWS 花了幾十年、幾千億美金建出來的東西。Anthropic 的核心能力是模型研究和 AI 安全，讓他們去和雲端巨頭競爭基礎設施可靠性，本來就不公平，也不合理。

從純粹的商業邏輯來看，把模型和基礎設施分開其實對 Anthropic 更健康：不用分心解決 DevOps 層的問題、雲端夥伴幫你觸及更多企業客戶、可以把資源集中在讓模型更好。護城河在模型能力，不在機房管理。

反對意見是商業面的損失——流量走 Vertex 和 Bedrock，Google 和 AWS 要抽成，Anthropic 的直接收入會被稀釋。這確實是真實的代價。但我覺得這個代價換到的東西更值錢：開發者真的願意把它放進生產環境。

訂閱補貼正在走向終點

Theo 還說過一句話：這種訂閱補貼方式不是長久之計。

$200 的 Max 方案，換算下來大概只有 $4,000 的推理額度。這個差距是 Anthropic 在用虧損換使用者黏著度。模型越強、使用者越重度使用，成本缺口就越大。

這個月的幾件事，放在一起看就是同一個故事的不同章節：GitHub Copilot 在 3/12 砍掉了學生方案裡的 Claude Opus 和 Sonnet 手動選擇權（原因是「要讓 Copilot 對全球學生保持免費可及」）；Anthropic 今天開始在尖峰時段加速消耗 session limit。方向一致：縮減補貼，把重度使用者往 API 推，或往更高費率的方案推。

補貼空間正在被一點一點收回。

最後

我認為 AI 服務的 SLA，答案不會從 Anthropic 或 OpenAI 自己身上長出來。他們沒有動機設計一個「掛了就切走」的機制，因為那意味著幫競爭對手導流。

真正能承諾 SLA 的，只有站在所有提供商之上的那一層。OpenRouter 目前沒有正式的 SLA 文件，但它的架構是對的。這個位置現在是空著的——等著被人認真填進去。

而對開發者來說，結論很簡單：如果你在乎可用性，不要把生產環境直接壓在任何一家 AI 公司的原生 API 上。這不是對 Claude 沒信心，這是對基礎設施現實有認識。