前言
最近我在部落格發了一篇文章——把一篇 12 年前消失的 LiSA 母女對談翻譯補回來。那是 LiSA 寫真書裡的母女對談,後來有粉絲翻譯成英文發在網路上,但那篇英文翻譯後來消失了。我覺得可惜,就用 AI 從日文原文重新翻成中文,一篇一篇連載出來(完整文章在這裡)。
做這件事的過程裡,我累積了不少跟 AI 協作翻譯的經驗。但就在文章發布沒多久,Claude Opus 4.7 推出了。社群的反應很激烈——有人說它「嚴重回退」,有人說「從跟一個有思想的同事對話,變成收到一份備忘錄」。
我聽到這些反應的時候,心裡的第一個念頭不是「我又要換模型了」。而是:這條路我走過。
我走過的路:從 GPT-5 的「制式化」到跳船
2026 年 2 月,我經過多個 AI 的對比測試後,決定完全放棄 ChatGPT。原因很單純:GPT-5 系列在人性化回應方面遠遜於 Claude。它太制式化了,像在跟一個客服機器人講話,不是在跟一個能理解你語境的助手協作。
我沒有猶豫太久。那個時候 Claude 的語感還很好,所以我就跳了。
但現在,Opus 4.7 也開始走同一條路。
Opus 4.7 變了什麼
先說清楚:Opus 4.7 不是「變笨了」。它在基準測試上的表現比 4.6 更好,agentic 能力更強。但它的行為模式變了:
- Temperature 被移除了。 你無法再用參數控制輸出的隨機性和創意程度,只能用 prompt 描述你想要的風格。
- 它變得字面聽話。 以前你丟一句模糊的指令,它會猜你的意思、自動補全你沒說的部分。現在不會了,它只做你說的,不多不少。
- 語感變平坦。 以前像在跟一個有想法的人聊天,現在像在讀一份結構完整的報告。
社群裡有人說得很好:
It used to feel like talking to a thoughtful colleague. Now it feels like getting a memo.
這不是 bug,是設計選擇。Anthropic 把模型推向更精確、更可控的方向,代價是犧牲了自然語感。
人才流動背後的暗線
但這個「設計選擇」不是憑空出現的。2026 年 1 月,一個關鍵人物從 OpenAI 跳到了 Anthropic:Andrea Vallone。
她在 OpenAI 待了三年,做的事情非常具體——
- 建立了「模型行為政策」研究團隊,決定 AI 應該怎麼回應使用者
- 主導了 GPT-4、推理模型、GPT-5 的部署方式
- 開發了 rule-based rewards 等安全訓練技術——正是讓模型變「聽話」的核心機制
- 專門研究模型在長對話中遇到心理健康議題時該怎麼反應
她跳到 Anthropic 後直接加入 alignment 團隊,跟 Jan Leike(2024 年從 OpenAI 跳過來的超級對齊團隊共同負責人)合作,負責塑造 Claude 的行為方式。她自己的 LinkedIn 寫得很白:
「I'm eager to continue my research at Anthropic, focusing on alignment and fine-tuning to shape Claude's behavior in novel contexts.」
時間線很清楚:
| 時間 | 事件 |
|---|---|
| 2024 | Jan Leike 從 OpenAI 跳到 Anthropic |
| 2026/1/16 | Andrea Vallone 從 OpenAI 跳到 Anthropic alignment 團隊 |
| ~2 月中 | 開始影響 Claude 的行為訓練流程 |
| ~4 月 | Opus 4.7 推出,語感明顯變「精確但平坦」 |
Fortune 2025 年 6 月的報導也指出,這不是個案——OpenAI 的工程師跳到 Anthropic 的機率是反向的 8 倍,DeepMind 是 11:1。Anthropic 兩年人才留任率 80%,OpenAI 只有 67%。整個 AI 產業的人才正在往 alignment 導向的公司集中。
所以你觀察到的「GPT-5 和 Opus 4.7 走同一條路線」,不是兩家公司恰好做出同樣的決定。是同一批人,帶著同一套方法論,從一家公司搬到了另一家。
為什麼第一個人的影響不明顯
你可能會問:Jan Leike 2024 年就到了,為什麼到他為止模型沒有明顯變化?
因為這兩個人的層級完全不同。
Jan Leike 是戰略層。 他的領域是 superalignment——「未來的超級智能怎麼跟人類對齊」。這是研究層面的、理論性的、長期的。他影響的是 Anthropic 的安全文化和研究方向,但不直接碰「模型今天輸出的語氣是什麼」。
Andrea Vallone 是戰術層。 她的專長是 model behavior policy 和 rule-based rewards——直接決定「模型面對使用者的時候怎麼說話」。語氣、風格、邊界、什麼該說什麼不該說。這是產品層面的、可落地的、短期見效的。
簡單說:Jan Leike 打底,Andrea Vallone 執行。 戰略改變需要時間才看得到,戰術改變三個月就反映在產品上。這就是為什麼 Opus 4.7 之前你感覺不明顯,Andrea Vallone 一到,變化就來了。
這跟我的翻譯有什麼關係
關係很大。
我的翻譯工作流是這樣的:
- AI 出初稿——把日文原文丟給模型,讓它翻成中文
- 我比對原文——逐句確認有沒有翻錯、漏翻
- 我校準語感——把 AI 翻得太生硬的地方改掉,把情感和語氣調到對的位置
- 最終審定——確認整篇文章讀起來像一個人在寫,不是一台機器在翻
這套流程的核心假設是:AI 給出的初稿有一個可用的語感基線,我再去微調。
但如果模型變成像 Opus 4.7 那樣——初稿就是一份翻譯機器人等級的東西,那我的工作就從「校準」變成「實質重寫」。工作量直接翻倍。
我在 GPT 時代就踩過的坑
其實類似的問題,我早在 2025 年就遇到了。
那時候我在測試怎麼讓 GPT 的輸出更有溫度、更像人。我試了兩種方法:
- 禁止式 prompt:「不要列清單」「不要給建議」「停留在感受上」→ 效果只有約 30%。因為你在對抗的是 RLHF 底層的權重,不是表面的指令。
- 角色框架 prompt:告訴 AI「你是誰」「你的風格是什麼」→ 效果 70-80%。因為你從源頭設定了行為邊界,不是在事後硬壓。
這個經驗後來變成了我的預設策略:不要告訴模型「你不要怎樣」,而是告訴它「你是誰」。
但 Opus 4.7 的變化讓這件事變得更難了。因為連「你是誰」這種角色框架,在模型不再願意模擬感受的時候,效果也會打折。你可以告訴它「你是一個懂 LiSA 的資深翻譯者」,但如果模型的底層已經被訓練成「不要模擬情感、只要精確表達」,那你的角色框架就是在跟模型的訓練目標對抗。
本地模型呢?
你可能會問:既然雲端模型越來越不聽話,那本地模型呢?我自己也有一套本地 LLM 的架構——vMLX + JANG 格式的 Gemma 4,跑在自己的機器上。
客觀來說:
- 好處:我完全控制 temperature、top-p 等參數,沒有人能從上面把它移除。資料也完全在自己手上。
- 壞處:模型能力有天花板。Gemma 4 31B 的通用能力大約在 GPT-4o-mini 到 Sonnet 的等級,繁體中文品質不錯,但長篇高情感密度的翻譯任務下,蒸餾污染和語言漂移是已知風險。
所以本地模型可以當備案,但拿來做那種「一個字一個字都要有溫度」的翻譯,它跟雲端模型面對的問題是不同種類的:
| 雲端(Opus 4.7 路線) | 本地(Gemma 4) | |
|---|---|---|
| 能力 | 夠,但語感退化 | 天花板就在那裡 |
| 可控性 | temperature 被拿走了 | 完全可控 |
| 穩定性 | 隨時可能再改 | 穩定,但模型本身會出怪問題 |
雲端模型是「食材好但你不准調味」,本地模型是「讓你自由發揮但食材等級不同」。
所以,結論是什麼
我不覺得這是一個「硬著跟模型對抗」的局面。也不是「把希望寄託在本地模型」的問題。
我的結論是:翻譯品質的核心從來不是 AI 的自然語感,是人類的判斷力。
模型退化只會讓我在工作流裡的角色從「校準者」變成「實質主譯者」。AI 從「幫我翻得差不多我再改」退化成「幫我查字典、給我一個粗糙的框架,剩下的我來」。這不是世界末日,只是效率的變化。
而且反過來想——這恰恰證明了 steering 能力的價值。當 AI 越來越不可靠的時候,你怎麼引導它、怎麼把你的情感和 context 灌進去、怎麼在最後一哩把溫度拉回來——這些技能只會越來越重要。
給同樣在做 AI 翻譯的人
如果你也在用 AI 做翻譯,不管你是翻日文、英文、還是任何語言,我的建議是:
- 不要依賴模型的自然語感。 那東西隨時可能被拿走,就像 temperature 一樣。背後驅動它的是整個產業的人才流動和價值觀選擇,不是你控得住的。
- 發展你自己的 steering 方法論。 角色框架比禁止式有效,但角色框架也不是萬能的——你需要不斷測試、不斷調整。
- 把人類判斷力當成核心資產。 AI 是加速器,不是引擎。翻譯的品質最終取決於你對目標語言的掌握、你對主題的理解、和你對情感的判斷。
- 保留你踩過的坑。 我從 GPT-5 時代的禁止式 prompt 實驗裡學到的東西,到現在還在用。每一次模型變化都是驗證你方法論的機會。
- 關注人才流動,不只是產品更新。 模型的行為變化背後是人員的流動。當你發現兩家公司的產品越來越像,去看誰跳了船,往往比看 release note 更能預測下一步。
最後說一句實話:我那篇 LiSA 岐阜記憶之旅的翻譯,能達到現在看得到的品質,不是因為 AI 多厲害。是因為我花了十年在理解 LiSA 這個人、她的音樂、她的故事。這些東西沒有任何模型能替我做。
模型會退化,方法論要迭代,但 你對內容的理解和情感投注,才是翻譯品質的真正上限。