當 AI 不再幫你腦補：從一篇 LiSA 翻譯看模型退化的真實影響

前言

最近我在部落格發了一篇文章——把一篇 12 年前消失的 LiSA 母女對談翻譯補回來。那是 LiSA 寫真書裡的母女對談，後來有粉絲翻譯成英文發在網路上，但那篇英文翻譯後來消失了。我覺得可惜，就用 AI 從日文原文重新翻成中文，一篇一篇連載出來（完整文章在這裡）。

做這件事的過程裡，我累積了不少跟 AI 協作翻譯的經驗。但就在文章發布沒多久，Claude Opus 4.7 推出了。社群的反應很激烈——有人說它「嚴重回退」，有人說「從跟一個有思想的同事對話，變成收到一份備忘錄」。

我聽到這些反應的時候，心裡的第一個念頭不是「我又要換模型了」。而是：這條路我走過。

我走過的路：從 GPT-5 的「制式化」到跳船

2026 年 2 月，我經過多個 AI 的對比測試後，決定完全放棄 ChatGPT。原因很單純：GPT-5 系列在人性化回應方面遠遜於 Claude。它太制式化了，像在跟一個客服機器人講話，不是在跟一個能理解你語境的助手協作。

我沒有猶豫太久。那個時候 Claude 的語感還很好，所以我就跳了。

但現在，Opus 4.7 也開始走同一條路。

Opus 4.7 變了什麼

先說清楚：Opus 4.7 不是「變笨了」。它在基準測試上的表現比 4.6 更好，agentic 能力更強。但它的行為模式變了：

Temperature 被移除了。 你無法再用參數控制輸出的隨機性和創意程度，只能用 prompt 描述你想要的風格。
它變得字面聽話。 以前你丟一句模糊的指令，它會猜你的意思、自動補全你沒說的部分。現在不會了，它只做你說的，不多不少。
語感變平坦。 以前像在跟一個有想法的人聊天，現在像在讀一份結構完整的報告。

社群裡有人說得很好：

It used to feel like talking to a thoughtful colleague. Now it feels like getting a memo.

這不是 bug，是設計選擇。Anthropic 把模型推向更精確、更可控的方向，代價是犧牲了自然語感。

人才流動背後的暗線

但這個「設計選擇」不是憑空出現的。2026 年 1 月，一個關鍵人物從 OpenAI 跳到了 Anthropic：Andrea Vallone。

她在 OpenAI 待了三年，做的事情非常具體——

建立了「模型行為政策」研究團隊，決定 AI 應該怎麼回應使用者
主導了 GPT-4、推理模型、GPT-5 的部署方式
開發了 rule-based rewards 等安全訓練技術——正是讓模型變「聽話」的核心機制
專門研究模型在長對話中遇到心理健康議題時該怎麼反應

她跳到 Anthropic 後直接加入 alignment 團隊，跟 Jan Leike（2024 年從 OpenAI 跳過來的超級對齊團隊共同負責人）合作，負責塑造 Claude 的行為方式。她自己的 LinkedIn 寫得很白：

「I'm eager to continue my research at Anthropic, focusing on alignment and fine-tuning to shape Claude's behavior in novel contexts.」

時間線很清楚：

時間	事件
2024	Jan Leike 從 OpenAI 跳到 Anthropic
2026/1/16	Andrea Vallone 從 OpenAI 跳到 Anthropic alignment 團隊
~2 月中	開始影響 Claude 的行為訓練流程
~4 月	Opus 4.7 推出，語感明顯變「精確但平坦」

Fortune 2025 年 6 月的報導也指出，這不是個案——OpenAI 的工程師跳到 Anthropic 的機率是反向的 8 倍，DeepMind 是 11:1。Anthropic 兩年人才留任率 80%，OpenAI 只有 67%。整個 AI 產業的人才正在往 alignment 導向的公司集中。

所以你觀察到的「GPT-5 和 Opus 4.7 走同一條路線」，不是兩家公司恰好做出同樣的決定。是同一批人，帶著同一套方法論，從一家公司搬到了另一家。

為什麼第一個人的影響不明顯

你可能會問：Jan Leike 2024 年就到了，為什麼到他為止模型沒有明顯變化？

因為這兩個人的層級完全不同。

Jan Leike 是戰略層。 他的領域是 superalignment——「未來的超級智能怎麼跟人類對齊」。這是研究層面的、理論性的、長期的。他影響的是 Anthropic 的安全文化和研究方向，但不直接碰「模型今天輸出的語氣是什麼」。

Andrea Vallone 是戰術層。 她的專長是 model behavior policy 和 rule-based rewards——直接決定「模型面對使用者的時候怎麼說話」。語氣、風格、邊界、什麼該說什麼不該說。這是產品層面的、可落地的、短期見效的。

簡單說：Jan Leike 打底，Andrea Vallone 執行。 戰略改變需要時間才看得到，戰術改變三個月就反映在產品上。這就是為什麼 Opus 4.7 之前你感覺不明顯，Andrea Vallone 一到，變化就來了。

這跟我的翻譯有什麼關係

關係很大。

我的翻譯工作流是這樣的：

AI 出初稿——把日文原文丟給模型，讓它翻成中文
我比對原文——逐句確認有沒有翻錯、漏翻
我校準語感——把 AI 翻得太生硬的地方改掉，把情感和語氣調到對的位置
最終審定——確認整篇文章讀起來像一個人在寫，不是一台機器在翻

這套流程的核心假設是：AI 給出的初稿有一個可用的語感基線，我再去微調。

但如果模型變成像 Opus 4.7 那樣——初稿就是一份翻譯機器人等級的東西，那我的工作就從「校準」變成「實質重寫」。工作量直接翻倍。

我在 GPT 時代就踩過的坑

其實類似的問題，我早在 2025 年就遇到了。

那時候我在測試怎麼讓 GPT 的輸出更有溫度、更像人。我試了兩種方法：

禁止式 prompt：「不要列清單」「不要給建議」「停留在感受上」→ 效果只有約 30%。因為你在對抗的是 RLHF 底層的權重，不是表面的指令。
角色框架 prompt：告訴 AI「你是誰」「你的風格是什麼」→ 效果 70-80%。因為你從源頭設定了行為邊界，不是在事後硬壓。

這個經驗後來變成了我的預設策略：不要告訴模型「你不要怎樣」，而是告訴它「你是誰」。

但 Opus 4.7 的變化讓這件事變得更難了。因為連「你是誰」這種角色框架，在模型不再願意模擬感受的時候，效果也會打折。你可以告訴它「你是一個懂 LiSA 的資深翻譯者」，但如果模型的底層已經被訓練成「不要模擬情感、只要精確表達」，那你的角色框架就是在跟模型的訓練目標對抗。

本地模型呢？

你可能會問：既然雲端模型越來越不聽話，那本地模型呢？我自己也有一套本地 LLM 的架構——vMLX + JANG 格式的 Gemma 4，跑在自己的機器上。

客觀來說：

好處：我完全控制 temperature、top-p 等參數，沒有人能從上面把它移除。資料也完全在自己手上。
壞處：模型能力有天花板。Gemma 4 31B 的通用能力大約在 GPT-4o-mini 到 Sonnet 的等級，繁體中文品質不錯，但長篇高情感密度的翻譯任務下，蒸餾污染和語言漂移是已知風險。

所以本地模型可以當備案，但拿來做那種「一個字一個字都要有溫度」的翻譯，它跟雲端模型面對的問題是不同種類的：

	雲端（Opus 4.7 路線）	本地（Gemma 4）
能力	夠，但語感退化	天花板就在那裡
可控性	temperature 被拿走了	完全可控
穩定性	隨時可能再改	穩定，但模型本身會出怪問題

雲端模型是「食材好但你不准調味」，本地模型是「讓你自由發揮但食材等級不同」。

所以，結論是什麼

我不覺得這是一個「硬著跟模型對抗」的局面。也不是「把希望寄託在本地模型」的問題。

我的結論是：翻譯品質的核心從來不是 AI 的自然語感，是人類的判斷力。

模型退化只會讓我在工作流裡的角色從「校準者」變成「實質主譯者」。AI 從「幫我翻得差不多我再改」退化成「幫我查字典、給我一個粗糙的框架，剩下的我來」。這不是世界末日，只是效率的變化。

而且反過來想——這恰恰證明了 steering 能力的價值。當 AI 越來越不可靠的時候，你怎麼引導它、怎麼把你的情感和 context 灌進去、怎麼在最後一哩把溫度拉回來——這些技能只會越來越重要。

給同樣在做 AI 翻譯的人

如果你也在用 AI 做翻譯，不管你是翻日文、英文、還是任何語言，我的建議是：

不要依賴模型的自然語感。 那東西隨時可能被拿走，就像 temperature 一樣。背後驅動它的是整個產業的人才流動和價值觀選擇，不是你控得住的。
發展你自己的 steering 方法論。 角色框架比禁止式有效，但角色框架也不是萬能的——你需要不斷測試、不斷調整。
把人類判斷力當成核心資產。 AI 是加速器，不是引擎。翻譯的品質最終取決於你對目標語言的掌握、你對主題的理解、和你對情感的判斷。
保留你踩過的坑。 我從 GPT-5 時代的禁止式 prompt 實驗裡學到的東西，到現在還在用。每一次模型變化都是驗證你方法論的機會。
關注人才流動，不只是產品更新。 模型的行為變化背後是人員的流動。當你發現兩家公司的產品越來越像，去看誰跳了船，往往比看 release note 更能預測下一步。

最後說一句實話：我那篇 LiSA 岐阜記憶之旅的翻譯，能達到現在看得到的品質，不是因為 AI 多厲害。是因為我花了十年在理解 LiSA 這個人、她的音樂、她的故事。這些東西沒有任何模型能替我做。

模型會退化，方法論要迭代，但 你對內容的理解和情感投注，才是翻譯品質的真正上限。