南投縣政府計畫處 - 為什麼有些 AI 生圖中文超穩，有些卻像喝醉？

最近你如果玩過 Gemini、Banana Pro、Midjourney v7 之類的新模型，
大概會驚訝地發現：

👉 英文穩
👉 中文也穩
👉 甚至繁體字長得跟字型管理員本人一樣端正

但你一轉頭回到某些早期 Diffusion——
中文字瞬間變成《古文明召喚陣》。
明明只是「南投縣政府」，結果生成出一串你不敢念的符號。

差別在哪？
來，看懂技術，再加一點好笑的人性觀察。

🧠 1. 老模型 vs 新模型：真正差在「架構」與「訓練策略」

早期是純視覺模型，專長是畫東西，不是「寫字」。
在它眼裡，文字就是「長得像方塊的線條集合」，跟窗框、磚塊、桌腳其實差不多類型。

但新一代模型（Gemini、Banana Pro 等）是 多模態架構，本質不一樣：
它們直接把「語言模型的大腦」接進影像系統裡，包含：

🔹 字符向量編碼：Prompt 的文字不是「概念」，是「精確 token」
🔹 文字專注模組：模型被強迫注意文字區域
🔹 專用文本渲染網路：不是畫字，是按照語言輸出「寫字」
🔹 跨語系、多模態大模型訓練：模型知道「文字不能亂來」

換句話說：

早期模型：畫字 → 像素猜猜樂
新一代模型：寫字 → 文字理解 + 影像渲染

所以準確度自然不同。

🧩 2. 中文筆畫真的密，但新模型已經能處理

中文筆畫密度確實是客觀困難模式。
（英文一筆歪掉還能救，中文一筆歪掉整個字直接失格。）

但新模型透過：

✔ 高解析度訓練資料
✔ 專門賦予文字區域更強的 loss（錯字就扣更多分）

因此模型真的能判斷：

「這個是『縣』，不是『県』、也不是『玄』、更不是『我瞎湊的圖案』。」

AI 不是不會，只是要訓練得夠嚴格。

🖼️ 3. 資料提升是關鍵：以前靠撿，現在是精準餵食

早期模型的中文字資料來源：
→ 網路上抓到什麼算什麼，很多都模糊、扭曲或解析度低。

新模型的資料來源則更明確：
→ 授權字體集
→ OCR 文庫
→ 大型排版資料（包含繁體）
→ 多語系文本影像地對齊訓練

於是模型不再把中文字當作雜訊，而是「可以精準還原的東西」。

這不是本質差距，而是 資料品質 + 訓練方法的世代差。

🔤 4. 真相：不是誰比較笨，只是「技術世代」不同

以前的 AI：
「我先把畫面畫漂亮，文字？呃…我盡力。」

現在的 AI：
「文字正確性是主功能之一，不寫對不給過。」

你要它寫「南投縣政府」：

🟢 Gemini / Banana Pro：
「好，標準黑體、對齊端正、四平八穩，請收。」

🟡 早期：
「這是……南…投……縣……符……？」（模型努力但真的做不到）

所以差別不是智商，是設計理念變了。
文字準確性從「選配」變成「標配」。

🌟 小結：中文難是真的，但新一代 AI 已經不怕了

中文筆畫多、密度高、語義複雜這些都是事實，
但 AI 不是永遠卡關——
它只是以前沒有用對方法。

現在的新模型：
✔ 訓練佛心
✔ 模組完整
✔ 資料夠多
✔ 架構就是為「多語系精準表達」設計

所以繁體中文已經能寫得非常穩定。

🎯 中文不是 AI 的罩門，只是它以前還沒拿對工具。
新世代把裝備換好後——我們終於能放心讓它寫中文了。

使用工具:chatgpt、Google Gemini、NotebookLM

資料整理:南投縣政府計畫處

AI報你知