今天中午寫了一篇模擬飛行的文章,需要封面圖。
想說用 AI 生一張。快、方便、效率高。輸入 prompt,幾秒鐘就有一張華航 777 在桃園機場的圖。雨天黃昏,地面濕滑有反光,氛圍超對。
發文,上班去了。
結果被人戳。
「你那個引擎掛架是反的。」
回去一看。真的。GE90 的掛架方向完全搞反。然後尾翼的位置也不對。用人類來比喻的話,就是頭長在屁股的位置。
氛圍對,細節全崩。
更令人混淆的是,它機身上的塗裝和文字是完美的。過去 AI 最不擅長的「拼寫」,現在卻變成了它的強項。它懂「符號的形狀」(2D 像素排列),所以能畫出完美的文字;但它不懂「物體的運作」(3D 物理邏輯),所以搞反了掛架。
讀者看到尾翼上的梅花畫對了,潛意識就更信任這張圖的真實性。
這是一種視覺上的權威性詐欺。當我們看到鉚釘清晰、光影完美的 4K 圖像時,大腦會被這些高頻細節欺騙,下意識認為「畫得這麼細,結構一定沒問題」。它用完美的材質,掩蓋了邏輯的荒謬。
它不懂「飛機是什麼」。它只是把像素拼成看起來像飛機的東西。引擎怎麼掛、尾翼朝哪邊,這種結構邏輯它沒有概念。
對不懂的人來說,這是一張好看的圖。對模擬飛行圈來說,這是常識性錯誤。比波音 vs 空巴的爭論嚴重多了——那是偏好問題,這是「這根本不是飛機」的問題。
發出去,就證明了連我也看不出來。
社群的反應更加強了這個現象。Reddit 上充滿了「太逼真了好可怕」、「分不出真假」的讚嘆。評論家盛讚它的「物理精確光影」(Physics-Accurate Lighting)和攝影棚等級的質感。
大眾被照片級的光影與材質嚇到了,恐懼與讚美皆來自於表面的真實。卻鮮少有人討論那些違反物理定律的怪異細節。
恐懼來自於表面的真實,盲點來自於對邏輯的忽視。
那個模型是 Google 的 Nano Banana Pro。
就是那個在 LMArena 匿名評測奪冠、Google 順勢拿來大肆行銷的「最強生圖 AI」。正式名稱是 Gemini 3 Pro Image,但因為評測時用「nano-banana」這個代號,結果社群爆紅,Google 就繼續用這個名字宣傳。
最諷刺的是,這個模型的官方行銷主打特色竟然是「Physics-Aware Reasoning」(物理感知推理)和「Deep Thinking」(深度思考)。Google 宣稱它能理解重力、因果邏輯,在繪圖前會先「思考」物體的物理結構。
排名第一,然後畫出引擎掛反的飛機。
在 LMArena 上讓人類盲測投票,「看起來漂亮」的分數可以很高,但結構對不對、細節合不合理,評測根本不管。對不懂飛機的評審來說,引擎掛反了也是一張好看的圖。
這解釋了為什麼它能拿第一:因為評審大眾也不懂飛機。這是一場由外行人舉辦、讓外行人投票、選出最能騙過外行人的比賽。
為什麼會這樣?這不是 Bug,這是目前 AI 架構的本質特徵。
所有的生成式 AI,學的都是「像素的統計關聯」(Correlation),而不是「物理的因果邏輯」(Causality)。
文字、金屬光澤、鉚釘細節,這些屬於「局部特徵」(Local Features)。在統計上,它們的規律很強,很容易模仿。但「引擎掛在機翼下」屬於「拓撲結構」(Topological Structure)。這需要理解物體的 3D 空間關係。但 AI 的訓練資料全是 2D 照片,它根本沒見過 3D 的飛機。
它就像一個只看過照片、從沒摸過實物的畫家。它可以把照片臨摹得惟妙惟肖,但因為不知道那其實是一個立體的金屬圓柱體,所以把它畫歪了也不自知。
只要我們還停留在「用 2D 圖片訓練 AI」的典範裡,這個問題就永遠無解。這不是算力多寡的問題,這是維度缺失的問題。
後來我回家開了 MSFS,自己截了一張駕駛艙視角的圖。777,夜間,跑道對正。PFD、ND、MCP 都在該在的位置。沒那麼「藝術」,但至少是對的。
以後不會再為了求快用 AI 生這種圖了。反正文章又不會跑掉。