
متصفح مرئي لوكلاء الذكاء الاصطناعي
مجاني

Open Screen هي واجهة متصفح headless متخصصة مصممة لسد الفجوة بين وكلاء LLM وواجهات الويب المعقدة. على عكس نصوص Puppeteer أو Playwright البرمجية التي تتطلب محددات DOM هشة، توفر Open Screen طبقة تفاعل مرئية أولاً. فهي تلتقط حالة DOM ونافذة العرض المرئية، مما يسمح لنماذج الذكاء الاصطناعي "برؤية" المواقع والتفاعل معها كما يفعل البشر. يلغي هذا النهج عبء صيانة الأتمتة القائمة على المحددات، مما يجعله مثالياً للمطورين الذين يبنون وكلاء مستقلين يحتاجون إلى التنقل في تطبيقات ويب ديناميكية وغير موحدة.
يلتقط كلاً من هيكل DOM الخام ولقطة شاشة معروضة للصفحة. من خلال تغذية هذه اللقطات في نماذج LLM متعددة الوسائط، يكتسب الوكيل وعياً مكانياً بعناصر واجهة المستخدم، مما يسمح له بالتفاعل مع الأزرار والمدخلات بناءً على موقعها المرئي بدلاً من محددات CSS الهشة التي تتعطل أثناء تحديثات الموقع.
يترجم نية المستخدم عالية المستوى إلى إجراءات متصفح دقيقة مثل النقر والتمرير وإدخال النص. بدلاً من كتابة نصوص أتمتة معقدة، يحدد المطورون الأهداف بلغة إنجليزية بسيطة، ويستخدم النظام LLM للتفكير في الخطوات اللازمة لتحقيق النتيجة المرجوة على صفحة الويب المستهدفة.
يدير تلقائياً تحميلات الصفحات غير المتزامنة وتحديثات المحتوى الديناميكي. يراقب النظام DOM باستمرار بحثاً عن التغييرات، مما يضمن انتظار الوكيل لعرض العناصر قبل محاولة التفاعل. هذا يقلل بشكل كبير من أخطاء 'العنصر غير موجود' الشائعة في أدوات الأتمتة التقليدية عند التعامل مع أطر عمل JavaScript الثقيلة مثل React أو Vue.
مبني فوق بروتوكولات متصفح headless عالية الأداء، مما يضمن حداً أدنى من استهلاك الموارد. من خلال التشغيل في حالة headless، فإنه يحافظ على بصمة ذاكرة صغيرة، مما يسمح للمطورين بتوسيع نطاق مثيلات وكلاء متعددة متزامنة على بنية تحتية سحابية قياسية دون الحاجة إلى بيئة واجهة رسومية كاملة.
ينفذ حلقة متكررة حيث يقوم الوكيل بتقييم نتيجة كل إجراء. إذا فشل إجراء أو أدى إلى حالة غير متوقعة، يوفر النظام سياق الخطأ مرة أخرى إلى LLM، مما يسمح له بالتصحيح الذاتي ومحاولة مسار بديل، وهو أمر بالغ الأهمية للتنقل المستقل والقوي عبر الويب.
يستخدم المطورون Open Screen لكشط البيانات من بوابات معقدة وموثقة تفتقر إلى واجهات برمجة تطبيقات عامة. من خلال توجيه الوكيل للانتقال إلى لوحة تحكم، والتصفية حسب التاريخ، ونسخ بيانات الجدول، يمكنهم أتمتة سير عمل التقارير اليدوية التي كانت ستتطلب صيانة مستمرة للنصوص البرمجية.
ينشر مهندسو ضمان الجودة وكلاء لإجراء اختبار شامل لتطبيقات الويب. يستكشف الوكيل الموقع، ويملأ النماذج، ويتحقق من سلوك واجهة المستخدم، ويبلغ عن أي تراجعات مرئية أو وظيفية دون الحاجة إلى كتابة مئات الأسطر من كود الاختبار اليدوي.
يستخدم محللو الأعمال الأداة لربط منصات SaaS المتباينة. يمكن تكليف وكيل بسحب عميل محتمل من CRM، والانتقال إلى منصة تسويق عبر البريد الإلكتروني، وإدخال تفاصيل العميل، مما يخلق فعلياً تكاملاً 'بدون كود' بين الأدوات التي لا تحتوي على دعم API أصلي.
يحتاجون إلى طريقة موثوقة لربط LLMs بالويب. يستخدمون Open Screen لتجاوز قيود الكشط التقليدي وإنشاء وكلاء يمكنهم التعامل مع تغييرات واجهة المستخدم غير المتوقعة.
يتطلعون إلى تقليل عبء صيانة نصوص الأتمتة الهشة. يعتمدون على التفاعل المرئي لضمان بقاء سير عملهم فعالاً حتى عند تغير هيكل الموقع الأساسي.
يسعون إلى إنشاء نماذج أولية لميزات مدعومة بالذكاء الاصطناعي بسرعة. يستخدمون الأداة لإثبات كيف يمكن للذكاء الاصطناعي التفاعل مع منتجات الويب الحالية دون الحاجة إلى تطوير API خلفي.
مشروع مفتوح المصدر متاح بموجب ترخيص MIT. مجاني للنشر والاستضافة الذاتية عبر Vercel أو البيئات المحلية.