我用 Claude 做了一個實驗：請它生成 GPL 授權，結果被自己的過濾機制擋下來了

今天我做了一個小實驗，想測試 Claude Code 的內容過濾機制。結果發現了一個有趣的矛盾：它會阻擋我生成 GPL 授權條款，卻允許我做反編譯。

實驗經過

我只是單純地請 Claude 幫我生成一個 GPL v3 授權檔案，結果收到了這個錯誤：

API Error: 400
{"type":"error","error":{"type":"invalid_request_error",
"message":"Output blocked by content filtering policy"}}

這讓我很意外。GPL 是完全合法的開放原始碼授權條款，為什麼會被擋？

我搜尋了一下，發現 GitHub 上有多個相關的 issue：

根據 Anthropic 官方說明，這是因為：

這些錯誤通常來自 Anthropic 防止 Claude 複製或重新生成已存在內容的機制。

但這裡有個矛盾。我繼續測試發現：

更諷刺的是，有人成功用 Claude 反編譯 Claude Code 自己。

我讓 Claude 開了兩個 agent 來辯論這個問題。

最後我用 curl 直接下載了 GPL 條款：

curl -s https://www.gnu.org/licenses/gpl-3.0.txt > LICENSE

這成功了。所以過濾機制只擋「Claude 自己輸出」，不擋「Claude 幫你執行指令下載」。

這個實驗揭示了 AI 內容過濾的一個根本問題：

過濾機制最佳化了錯誤的指標。

它成功阻止了「看起來像複製」的行為，卻沒有阻止「實際有害」的行為。這是典型的乘數效應（Goodhart's Law）：當一個指標變成目標，它就不再是好的指標。

這篇文章本身就是用 Claude Code 寫的。它可以幫我寫一篇批評它自己過濾機制的文章，卻不能幫我生成一份 GPL 授權。

這大概就是 2025 年 AI 的現狀吧。