今天 Claude 又出事了。Opus 4.6 和 Sonnet 4.6 從早上開始出現 elevated error rates,同一天 Anthropic 宣布要在尖峰時段加速消耗使用者的 session limit。整個三月,這已經不是第一次,也不會是最後一次。

這讓我想到一個在 hosting 圈很基本、但在 AI 服務幾乎不存在的東西:SLA

先說可用性,其他先不提

有人會把 SLA 討論帶到品質穩定性、latency、模型版本一致性這些方向。這些都重要,但前提是服務要能用。一個時常掛掉、時常限速的服務,談其他都是空的。

今天要討論的只有一件事:AI 服務到底應不應該對可用性做出承諾?

我認為應該。但現實是,無論是 Anthropic、OpenAI,還是 xAI,目前都沒有針對一般付費使用者做這件事。最接近的實作方案,反而是 OpenRouter 那種聚合層的架構。

OpenRouter 為什麼能接近 SLA

OpenRouter 不是靠自己的基礎設施撐起可用性,而是透過路由——同一個模型,當 Anthropic 自己的端點掛掉,它可以切去 Google Vertex AI 上的 Claude,或是 AWS Bedrock 上的 Claude。模型行為一致,只是換了一條路。

這個區別很關鍵:不是切換到「另一家的 AI」,而是切換同一個模型的不同基礎設施提供商。對使用者來說,效果是一樣的;對服務可用性來說,這才是真正能承諾 SLA 的架構。

YouTuber Theo 很久以前就因為這個原因,選擇不再直接跟 Anthropic 買 API,而是走 Vertex。不是不信任 Claude 這個模型,是不信任 Anthropic 自己的基礎設施。這個判斷在三月份得到了非常充分的驗證。

分開好,還是合併好

這其實是個值得認真討論的問題。Anthropic 身兼「最好的模型研究公司」和「直接服務使用者的平台」兩個角色,這兩件事的能力要求完全不同。

跑一個全球高可用的基礎設施,是 Google 和 AWS 花了幾十年、幾千億美金建出來的東西。Anthropic 的核心能力是模型研究和 AI 安全,讓他們去和雲端巨頭競爭基礎設施可靠性,本來就不公平,也不合理。

從純粹的商業邏輯來看,把模型和基礎設施分開其實對 Anthropic 更健康:不用分心解決 DevOps 層的問題、雲端夥伴幫你觸及更多企業客戶、可以把資源集中在讓模型更好。護城河在模型能力,不在機房管理。

反對意見是商業面的損失——流量走 Vertex 和 Bedrock,Google 和 AWS 要抽成,Anthropic 的直接收入會被稀釋。這確實是真實的代價。但我覺得這個代價換到的東西更值錢:開發者真的願意把它放進生產環境。

訂閱補貼正在走向終點

Theo 還說過一句話:這種訂閱補貼方式不是長久之計。

$200 的 Max 方案,換算下來大概只有 $4,000 的推理額度。這個差距是 Anthropic 在用虧損換使用者黏著度。模型越強、使用者越重度使用,成本缺口就越大。

這個月的幾件事,放在一起看就是同一個故事的不同章節:GitHub Copilot 在 3/12 砍掉了學生方案裡的 Claude Opus 和 Sonnet 手動選擇權(原因是「要讓 Copilot 對全球學生保持免費可及」);Anthropic 今天開始在尖峰時段加速消耗 session limit。方向一致:縮減補貼,把重度使用者往 API 推,或往更高費率的方案推。

補貼空間正在被一點一點收回。

最後

我認為 AI 服務的 SLA,答案不會從 Anthropic 或 OpenAI 自己身上長出來。他們沒有動機設計一個「掛了就切走」的機制,因為那意味著幫競爭對手導流。

真正能承諾 SLA 的,只有站在所有提供商之上的那一層。OpenRouter 目前沒有正式的 SLA 文件,但它的架構是對的。這個位置現在是空著的——等著被人認真填進去。

而對開發者來說,結論很簡單:如果你在乎可用性,不要把生產環境直接壓在任何一家 AI 公司的原生 API 上。這不是對 Claude 沒信心,這是對基礎設施現實有認識。