
เบราว์เซอร์ภาพสำหรับ AI Agent

Open Screen คืออินเทอร์เฟซเบราว์เซอร์แบบ headless ที่ออกแบบมาเพื่อเชื่อมช่องว่างระหว่าง LLM agents และ UI เว็บไซต์ที่ซับซ้อน ต่างจากสคริปต์ Puppeteer หรือ Playwright ทั่วไปที่ต้องพึ่งพา DOM selectors ที่เปราะบาง Open Screen มอบเลเยอร์การโต้ตอบแบบเน้นภาพเป็นหลัก โดยจะจับภาพสถานะ DOM และ viewport ทำให้โมเดล AI สามารถ 'มองเห็น' และโต้ตอบกับเว็บไซต์ได้เหมือนมนุษย์ แนวทางนี้ช่วยลดภาระการบำรุงรักษาจากการใช้ selector แบบเดิม ทำให้เหมาะสำหรับนักพัฒนาที่สร้าง autonomous agents ซึ่งต้องนำทางในเว็บแอปพลิเคชันที่มีความไดนามิกและไม่เป็นมาตรฐาน
จับภาพโครงสร้าง DOM ดั้งเดิมและภาพหน้าจอที่เรนเดอร์แล้ว การส่ง snapshot เหล่านี้เข้าสู่ multimodal LLMs ช่วยให้ agent รับรู้ตำแหน่งขององค์ประกอบ UI ทำให้สามารถโต้ตอบกับปุ่มและช่องกรอกข้อมูลตามตำแหน่งภาพ แทนที่จะใช้ CSS selectors ที่มักจะพังเมื่อมีการอัปเดตเว็บไซต์
แปลงความต้องการของผู้ใช้ระดับสูงให้เป็นการกระทำในเบราว์เซอร์ที่แม่นยำ เช่น การคลิก การเลื่อน และการพิมพ์ข้อความ แทนที่จะเขียนสคริปต์อัตโนมัติที่ซับซ้อน นักพัฒนาเพียงกำหนดเป้าหมายเป็นภาษาอังกฤษทั่วไป และระบบจะใช้ LLM ในการวิเคราะห์ขั้นตอนที่จำเป็นเพื่อให้บรรลุผลลัพธ์บนหน้าเว็บเป้าหมาย
จัดการการโหลดหน้าเว็บแบบอะซิงโครนัสและการอัปเดตเนื้อหาแบบไดนามิกโดยอัตโนมัติ ระบบจะตรวจสอบการเปลี่ยนแปลงของ DOM อย่างต่อเนื่องเพื่อให้แน่ใจว่า agent รอให้องค์ประกอบเรนเดอร์เสร็จก่อนโต้ตอบ ซึ่งช่วยลดข้อผิดพลาด 'element not found' ที่พบบ่อยในเครื่องมืออัตโนมัติทั่วไปเมื่อใช้กับเฟรมเวิร์ก JavaScript อย่าง React หรือ Vue
สร้างขึ้นบนโปรโตคอลเบราว์เซอร์แบบ headless ประสิทธิภาพสูง จึงใช้ทรัพยากรน้อยมาก การทำงานในสถานะ headless ช่วยให้ใช้หน่วยความจำต่ำ ทำให้นักพัฒนาสามารถขยายขนาด agent หลายตัวพร้อมกันบนโครงสร้างพื้นฐานคลาวด์มาตรฐานได้โดยไม่ต้องใช้สภาพแวดล้อม GUI เต็มรูปแบบ
ใช้ลูปแบบเรียกซ้ำที่ agent จะประเมินผลลัพธ์ของการกระทำทุกครั้ง หากการกระทำล้มเหลวหรือนำไปสู่สถานะที่ไม่คาดคิด ระบบจะส่งบริบทของข้อผิดพลาดกลับไปยัง LLM เพื่อให้สามารถแก้ไขตัวเองและลองเส้นทางอื่น ซึ่งเป็นสิ่งสำคัญสำหรับการนำทางเว็บแบบอัตโนมัติที่แข็งแกร่ง
นักพัฒนาใช้ Open Screen เพื่อดึงข้อมูลจากพอร์ทัลที่ซับซ้อนและต้องมีการยืนยันตัวตนซึ่งไม่มี public API โดยการสั่งให้ agent นำทางไปยังแดชบอร์ด กรองข้อมูลตามวันที่ และคัดลอกข้อมูลตาราง ทำให้สามารถทำรายงานอัตโนมัติแทนการทำงานด้วยมือที่ต้องคอยดูแลสคริปต์อยู่ตลอด
วิศวกร QA ใช้งาน agent เพื่อทดสอบ end-to-end ของเว็บแอปพลิเคชัน โดย agent จะสำรวจเว็บไซต์ กรอกแบบฟอร์ม และตรวจสอบพฤติกรรมของ UI พร้อมรายงานข้อผิดพลาดทางภาพหรือฟังก์ชันการทำงานโดยไม่ต้องเขียนโค้ดทดสอบด้วยมือจำนวนมาก
นักวิเคราะห์ธุรกิจใช้เครื่องมือนี้เชื่อมต่อแพลตฟอร์ม SaaS ต่างๆ เข้าด้วยกัน โดยสามารถสั่งให้ agent ดึงข้อมูลลูกค้าจาก CRM ไปยังแพลตฟอร์มการตลาดผ่านอีเมลและกรอกรายละเอียดลูกค้า สร้างการเชื่อมต่อแบบ 'no-code' ระหว่างเครื่องมือที่ไม่มีการรองรับ API โดยตรง
ต้องการวิธีที่เชื่อถือได้ในการเชื่อมต่อ LLMs เข้ากับเว็บ โดยใช้ Open Screen เพื่อข้ามข้อจำกัดของการดึงข้อมูลแบบเดิมและสร้าง agent ที่สามารถรับมือกับการเปลี่ยนแปลง UI ที่คาดเดาไม่ได้
ต้องการลดภาระการบำรุงรักษาสคริปต์อัตโนมัติที่เปราะบาง โดยพึ่งพาการโต้ตอบแบบเน้นภาพเพื่อให้มั่นใจว่าเวิร์กโฟลว์ยังคงทำงานได้แม้โครงสร้างเว็บไซต์พื้นฐานจะเปลี่ยนไป
ต้องการสร้างต้นแบบฟีเจอร์ที่ขับเคลื่อนด้วย AI อย่างรวดเร็ว โดยใช้เครื่องมือนี้เพื่อสาธิตว่า AI สามารถโต้ตอบกับผลิตภัณฑ์เว็บที่มีอยู่ได้อย่างไรโดยไม่ต้องพัฒนา backend API เพิ่มเติม
โครงการโอเพนซอร์สภายใต้ใบอนุญาต MIT ใช้งานและโฮสต์เองได้ฟรีผ่าน Vercel หรือสภาพแวดล้อมในเครื่อง