
معايير قياس كمية GGUF
مجاني
يوفر localbench تحليلاً دقيقاً للأداء يعتمد على البيانات لنماذج اللغة الكبيرة بتنسيق GGUF. على عكس المقاييس العامة التي تعتمد على مجموعات بيانات ثابتة مثل ويكيبيديا، يقوم localbench بتقييم جودة النموذج باستخدام تباعد KL عبر 250,000 رمز من بيانات المهام الواقعية. وهو يقارن بشكل خاص مخرجات التكميم من مساهمين رئيسيين مثل Unsloth وBartowski، مما يوفر للمطورين نظرة شفافة حول كيفية تأثير طرق التكميم المختلفة على حيرة النموذج وقدراته الاستنتاجية. هذه الأداة ضرورية للمهندسين الذين يعملون على تحسين عمليات نشر نماذج LLM محلياً والذين يحتاجون إلى الموازنة بين قيود الأجهزة ودقة المخرجات.
يستخدم تباعد Kullback-Leibler لقياس المسافة الإحصائية بين نموذج FP16 الأصلي وإصدار GGUF المكمم. يوفر هذا مقياساً رياضياً صارماً لـ 'فقدان المعلومات' أثناء التكميم، وهو أكثر دقة بكثير من درجات الحيرة البسيطة لتقييم مدى احتفاظ النموذج بقدراته الاستنتاجية الأصلية بعد الضغط.
يتم إجراء المقاييس على أكثر من 250,000 رمز من المهام الواقعية الخاصة بالمجال بدلاً من مجموعات البيانات الأكاديمية القياسية. يضمن هذا أن النتائج تعكس كيفية تصرف النماذج في بيئات الإنتاج الفعلية، مثل توليد الأكواد، والتلخيص، واتباع التعليمات، بدلاً من مجرد اختبار حفظ النصوص الثابتة.
يقارن مباشرة مخرجات التكميم من مبدعين مختلفين مثل Unsloth وBartowski. يسمح هذا للمستخدمين بتحديد مسارات التكميم التي تنتج ملفات GGUF الأكثر استقراراً وعالية الدقة، مما يساعد المطورين على تجنب النماذج التي قد تكون تدهورت بسبب معلمات تكميم أو نصوص تحويل غير مثالية.
يركز على تنسيق GGUF، وهو المعيار الصناعي للاستدلال الهجين بين CPU وGPU. من خلال توفير بيانات واضحة حول كيفية أداء مستويات تكميم محددة على أجهزة المستهلك، يساعد localbench المطورين على زيادة نافذة السياق وإنتاجية الرموز دون تجاوز حدود VRAM المحلية لديهم.
يوفر رؤية كاملة لمسار الاختبار. من خلال توثيق أعداد الرموز الدقيقة وأنواع المهام المستخدمة للتقييم، يسمح localbench بنتائج قابلة للتكرار، مما يمكن المجتمع من التحقق من جودة تحميلات نماذج معينة قبل الالتزام بتنزيلات كبيرة أو دمجها في الإنتاج.
يستخدم مهندسو الذكاء الاصطناعي الذين يبنون مسارات RAG محلية أداة localbench لاختيار أعلى أداء لتكميم Q4 أو Q5، مما يضمن الحفاظ على دقة عالية مع ملاءمة النموذج ضمن قيود VRAM بسعة 8 جيجابايت أو 16 جيجابايت.
يستخدم المطورون الذين يختارون بين إصدارات GGUF متعددة لنفس النموذج بيانات تباعد KL للتحقق من أي قائم بالتحميل يوفر المخرجات الأكثر موثوقية، مما يقلل من مخاطر هلوسة النموذج غير المتوقعة.
يستخدم الباحثون ومعدلو النماذج المقاييس للتحقق من نصوص التكميم الخاصة بهم، ومقارنة نتائجهم بالمقاييس الراسخة لضمان أن عملية التحويل الخاصة بهم لا تقدم ضوضاء غير ضرورية.
يحتاجون إلى نشر نماذج LLM على أجهزة محلية ويحتاجون إلى بيانات دقيقة حول كيفية تأثير التكميم على جودة مخرجات النموذج لضمان موثوقية على مستوى الإنتاج.
المستخدمون المتقدمون الذين يشغلون نماذج مثل Llama 3 أو Mistral محلياً ويريدون الحصول على أفضل أداء من وحدات معالجة الرسومات (GPUs) الخاصة بهم.
المبدعون الذين يقومون بتحميل نماذج GGUF إلى HuggingFace ويريدون التحقق من جودة تحويلاتهم مقابل معايير الصناعة.
يتم توفير المحتوى مجاناً عبر Substack الخاص بـ localbench. لا يلزم اشتراك للوصول إلى بيانات البحث والمقاييس.