比較各家 AI 模型的「圖生 UI」能力 —— BSOD-Page 實驗

—

by

in AI, Blog, Test

在生成式 AI 的浪潮下，「由圖生成 UI」的能力逐漸成為一個熱門應用場景。設計師或工程師能透過這樣的技術，將一張設計稿或草圖，快速轉化為 HTML/CSS 網頁原型，節省大量人力與時間。

為了測試這些 AI 模型在實際任務中的表現，我做了一個小實驗專案 —— bsod-page，並已部署在 bsod.windo.me，讓大家可以直接線上體驗。

這個實驗的做法很單純：
👉 給模型一張模仿 Windows BSOD 的 meme 圖，讓它們嘗試輸出完整的 UI 網頁。

測試模型

這次比較了五個不同的 AI 模型，涵蓋 Anthropic、Google 與 OpenAI：

Claude Sonnet 4 —— Anthropic 最新旗艦模型。
Claude Code —— Anthropic 專門強化程式碼的模型。
Gemini 2.5 Flash —— Google 的高速模型，強調低延遲。
Gemini 2.5 Pro —— Google 的高階模型，側重複雜推理與理解。
OpenAI GPT-5 —— OpenAI 最新一代模型，綜合語言、程式與多模態生成能力。

比較面向

為了觀察不同模型的差異，我將結果從以下五個面向來檢視：

面向	評估重點
視覺貼近度	顏色、字體、排版是否與 meme 相符？
結構還原能力	能否正確區分標題、文字、表情符號與進度條？
語義理解	模型是否理解哪些內容是錯誤訊息、哪些是附加說明？
互動性/可用性	是否輸出完整 HTML/CSS，能作為網頁使用？
細節還原	尤其是表情符號、文字對齊等小細節是否正確？

實驗結果

1. Claude Sonnet 4

能輸出 HTML，但格式不完全正確。
表情符號無法正確還原。
文字沒有靠左對齊，而是置中顯示。
雖然能展示，但與 meme 差距明顯。

2. Claude Code

結構清晰，但也有偏差。
背景顏色選擇錯誤，與 meme 不一致。
同樣存在 文字置中、表情符號錯誤 的問題。
語法乾淨，但在外觀忠實度上表現不佳。

3. Gemini 2.5 Flash

能正確生成可展示的網頁。
文字被置中，非靠左對齊。
表情符號還原稍微有落差。
有趣的是，還原度反而比 Pro 更高，更接近 meme。

4. Gemini 2.5 Pro

同樣能生成可展示的網頁。
文字置中，表情符號不夠精確。
雖然理解力理應比 Flash 更強，但在這次測試中，還原度比 Flash 低。

5. OpenAI GPT-5

唯一能完整正確輸出的模型。
HTML/CSS 結構清晰、正確。
文字正確靠左對齊，樣式高度還原 meme。
表情符號完全正確，細節精準。
可直接作為網頁使用，效果最佳。

總結

OpenAI GPT-5 是唯一能正確生成「格式、對齊與表情符號」的模型，忠實度與實用性最高。
Claude 系列 雖能生成 HTML，但普遍存在文字置中與表情符號錯誤，Claude Code 還選錯背景顏色。
Gemini 系列 能生成可展示的網頁，但文字置中、表情符號不足；Flash 還原度竟比 Pro 更高。
整體而言，GPT-5 在「由圖生成 UI」任務上明顯領先其他模型。

這也意味著，未來若要讓「圖生 UI」更成熟，可能需要 結合不同模型的優勢 —— 一個專注語義結構，一個專注排版與美感，最終融合成完整的可用結果。

👉 想親眼看看比較結果？
bsod.windo.me

Comments

發佈留言取消回覆