

Open Screen 是一款專為連接 LLM 代理與複雜網頁 UI 而設計的無頭瀏覽器介面。與需要脆弱 DOM 選擇器的標準 Puppeteer 或 Playwright 腳本不同,Open Screen 提供了視覺優先的互動層。它能擷取 DOM 狀態與視覺視窗,讓 AI 模型能像人類一樣「看見」並操作網站。此方法消除了基於選擇器的自動化維護成本,非常適合開發人員構建需要導航動態、非標準化網頁應用程式的自主代理。
同時擷取原始 DOM 結構與頁面的渲染截圖。透過將這些快照輸入多模態 LLM,代理能獲得 UI 元素的空間感知能力,使其能根據視覺位置而非在網站更新時容易失效的 CSS 選擇器來與按鈕和輸入框互動。
將高階使用者意圖轉化為精確的瀏覽器動作,如點擊、捲動與文字輸入。開發人員無需編寫複雜的自動化腳本,只需以簡單英文定義目標,系統即會利用 LLM 推理出在目標網頁上達成預期結果所需的步驟。
自動管理非同步頁面載入與動態內容更新。系統會持續監控 DOM 變化,確保代理在嘗試互動前等待元素渲染完成。這顯著減少了在處理 React 或 Vue 等重型 JavaScript 框架時,傳統自動化工具常見的「找不到元素」錯誤。
建構於高效能無頭瀏覽器協定之上,確保極低的資源開銷。透過在無頭狀態下執行,它保持了較小的記憶體佔用,讓開發人員無需完整的 GUI 環境,即可在標準雲端基礎設施上擴展多個並發代理實例。
實作了一個遞迴迴圈,讓代理評估每個動作的結果。若動作失敗或導致意外狀態,系統會將錯誤上下文回傳給 LLM,使其能自我修正並嘗試替代路徑,這對於穩健的自主網頁導航至關重要。
開發人員使用 Open Screen 從缺乏公開 API 的複雜驗證入口網站抓取資料。透過指示代理導航至儀表板、按日期篩選並複製表格資料,他們可以自動化原本需要持續維護腳本的手動報告工作流程。
QA 工程師部署代理來執行網頁應用程式的端對端測試。代理會探索網站、填寫表單並驗證 UI 行為,回報任何視覺或功能上的回歸,無需編寫數百行手動測試程式碼。
商業分析師使用該工具連接不同的 SaaS 平台。代理可被指派從 CRM 提取潛在客戶資料,導航至電子郵件行銷平台並輸入資料,從而在缺乏原生 API 支援的工具間建立「無程式碼」整合。
需要可靠的方式將 LLM 連接到網路。他們使用 Open Screen 來繞過傳統抓取的限制,並建立能處理不可預測 UI 變化的代理。
尋求降低脆弱自動化腳本的維護負擔。他們依賴視覺優先的互動方式,確保工作流程即使在底層網站結構變更時仍能正常運作。
尋求快速原型化 AI 驅動的功能。他們使用該工具展示 AI 如何與現有網頁產品互動,而無需進行後端 API 開發。
開源專案,採用 MIT 授權條款。可透過 Vercel 或本地環境免費部署與自託管。