隨著 Vibe Coding,或者現在叫做 Agentic Coding 的興起,我想分享一下我的心路歷程。

我從小就是 CP。

比較像是說,整個身體只有右手的一根手指可以動。所以,平常我的操作範圍非常有限。

中間也試過很多輔具。

去那個,第一基金會。所謂的破冰團隊,就是了。類似以前 IBM 的 UltraNav TrackPoint。

又或者是類比的,類似以前街機的搖台。用比較大的搖桿去轉成數位訊號,來推動滑鼠游標的移動。

但是每次都是用了幾個月,或者用最久了只用了兩年,就慢慢覺得不太合適。

慢慢要去找新的方案,然後又要再花幾千塊。他們幫我把輔助一步一步地搭出來。

但是,自從有了 Agentic Coding 的時候,我發現我最好的輔助,居然是一台 Mac。

因為我目前的解法是:Qwen3-ASR 的模型,再加上適配我嘴巴肌肉的 adapter。

因為我的肌肉張力的關係,我的發音結構也跟別人不太一樣。

然後再加上 Computer Use。

這樣就達成了:我只要動個嘴巴,就可以去做幾乎所有的電腦操作。

除了打遊戲以外。打遊戲說不定以後也可以了。這個是我的下一步目標。

只能說,在這個時代,很多以前別人幫你搭的東西,你居然可以自己把工作流搭出來。

雖然 Mac 很貴,是真的。

我請 Codex 算過,因為我目前是兩個一百美元的訂閱輪著使用。

如果這個部分全部算成 API 的話,是四千到五千美元。

能夠花四千到五千美元去做這個東西,有點無奈,但是又很開心。

前一篇其實有把這段寫完整:那篇被說 AI 味很重的文章,後來讓我修了整條工作流

那次社團底下有人直接說「AI 味很重」,也有人說「你這篇就是 AI 寫的,你根本沒改」。

難聽歸難聽,但它確實讓我回去修整條工作流,也激勵了我要把 adapter 做好。

因為我以前的概念就是全部交給 Skill、全部交給 AI 就好了,後來才發現這樣不夠。

但是,這個成就感,對以前高中程式設計不及格的我來說,根本很難達到。

在我的心裡面有一句話,叫做「化不可能為可能」。

可能就是這個的具體實現吧。

當然,我知道每個人的障礙別可能都不太一樣。

有的人甚至連嘴巴都不能動,那個又是更困難的一件事情了。

可是我只要叫 Codex,還有 Claude,去把我的語音輸入程式跟 Computer Use 的介接層去做調整,就可以得到一個很適配我自己的效果。

補充一個脈絡:一開始的基底是用 Claude Opus 4.6 打出來的。後面因為 Anthropic 的一些因素,所以就改用 Codex 了。

但是,如果沒有一開始的 Claude 基底,就不會有現在這個程度。

這個是我覺得只有在現在這個時空背景下才能做得到的。

感謝大家能夠看到這邊。稍微補充一點技術細節好了,你們社團裡的各位大概有很多人都知道 Typeless 這套軟體吧?

之前我有嘗試使用過這個軟體,結果我的構音障礙偏差已經讓它偏差到吐出內部的 Prompt。

它的運作原理大概是這樣的:三個 ASR 吐出結果,然後交給 LLM 去投票選出一個最接近的出來。

但因為我的構音障礙已經差到讓 LLM 完全投票不出來哪個才是對的,結果就發生了 Prompt Leaking。我這才知道內部的運作原理原來是這樣子,所以只能自己砸下去做了。

用我自己的能力去一個一個教模型,哪一個是對的、哪一個是錯的,這樣子。

加上 GPT 5.5 的語義判斷輔助也夠力,所以目前就是用這個 JSON 的規則模型去處理的。有點像正負方、正反方這樣子的判斷方式。