

Open Screen은 LLM 에이전트와 복잡한 웹 UI를 연결하도록 설계된 전문 헤드리스 브라우저 인터페이스입니다. 불안정한 DOM 선택자가 필요한 기존 Puppeteer나 Playwright 스크립트와 달리, 시각 중심의 상호작용 계층을 제공합니다. DOM 상태와 시각적 뷰포트를 캡처하여 AI 모델이 인간처럼 웹사이트를 '보고' 상호작용하게 합니다. 이 방식은 선택자 기반 자동화의 유지보수 부담을 제거하며, 동적이고 비표준적인 웹 애플리케이션을 탐색해야 하는 자율 에이전트 개발에 최적입니다.
원시 DOM 구조와 페이지의 렌더링된 스크린샷을 모두 캡처합니다. 이 스냅샷을 멀티모달 LLM에 입력하면 에이전트가 UI 요소의 공간적 위치를 파악하여, 사이트 업데이트 시 깨지기 쉬운 CSS 선택자 대신 시각적 위치를 기반으로 버튼과 입력창을 제어할 수 있습니다.
사용자의 높은 수준 의도를 클릭, 스크롤, 텍스트 입력과 같은 정밀한 브라우저 작업으로 변환합니다. 복잡한 자동화 스크립트 작성 대신 평문 영어로 목표를 정의하면, 시스템이 LLM을 사용하여 대상 웹페이지에서 원하는 결과를 얻기 위한 단계를 추론합니다.
비동기 페이지 로드와 동적 콘텐츠 업데이트를 자동으로 관리합니다. DOM 변경 사항을 지속적으로 모니터링하여 요소가 렌더링될 때까지 에이전트가 대기하도록 보장합니다. 이는 React나 Vue 같은 무거운 JS 프레임워크 사용 시 발생하는 '요소를 찾을 수 없음' 오류를 크게 줄여줍니다.
고성능 헤드리스 브라우저 프로토콜을 기반으로 구축되어 리소스 오버헤드를 최소화합니다. 헤드리스 상태로 실행되어 메모리 점유율이 낮으므로, 전체 GUI 환경 없이도 표준 클라우드 인프라에서 여러 에이전트 인스턴스를 동시에 확장할 수 있습니다.
에이전트가 모든 작업 결과를 평가하는 재귀적 루프를 구현합니다. 작업이 실패하거나 예상치 못한 상태가 되면 시스템이 오류 컨텍스트를 LLM에 다시 제공하여, 스스로 수정하고 대체 경로를 시도하게 함으로써 견고하고 자율적인 웹 탐색을 가능하게 합니다.
공식 API가 없는 복잡한 인증 포털에서 데이터를 스크랩합니다. 대시보드 이동, 날짜 필터링, 테이블 데이터 복사 등을 에이전트에 지시하여 지속적인 스크립트 유지보수가 필요한 수동 보고 워크플로우를 자동화합니다.
QA 엔지니어가 웹 애플리케이션의 엔드투엔드 테스트를 수행합니다. 에이전트가 사이트를 탐색하고 폼을 작성하며 UI 동작을 검증하여, 수백 줄의 수동 테스트 코드 작성 없이도 시각적 또는 기능적 회귀를 보고합니다.
비즈니스 분석가가 서로 다른 SaaS 플랫폼을 연결합니다. CRM에서 리드를 가져와 이메일 마케팅 플랫폼에 입력하는 등의 작업을 수행하여, 기본 API 지원이 없는 도구 간의 '노코드' 통합을 구현합니다.
LLM을 웹에 연결할 안정적인 방법이 필요한 개발자입니다. 기존 스크래핑의 한계를 극복하고 예측 불가능한 UI 변경을 처리할 수 있는 에이전트를 구축합니다.
불안정한 자동화 스크립트의 유지보수 부담을 줄이려는 엔지니어입니다. 시각 중심 상호작용을 통해 웹사이트 구조가 변경되어도 워크플로우가 정상 작동하도록 보장합니다.
AI 기반 기능을 빠르게 프로토타이핑하려는 관리자입니다. 백엔드 API 개발 없이도 AI가 기존 웹 제품과 어떻게 상호작용할 수 있는지 시연하는 데 사용합니다.
MIT 라이선스로 제공되는 오픈 소스 프로젝트입니다. Vercel 또는 로컬 환경을 통해 무료로 배포 및 셀프 호스팅이 가능합니다.