
خدمة LLM ذات إنتاجية عالية
مجاني
vLLM هو محرك استنتاج وخدمة عالي الأداء مصمم لزيادة الإنتاجية وكفاءة الذاكرة لنماذج اللغات الكبيرة (LLMs). تكمن قيمته الأساسية في قدرته على خدمة النماذج بمعدلات طلب أعلى بكثير من تطبيقات Hugging Face Transformers القياسية. تم بناء المحرك على PagedAttention، وهي خوارزمية مملوكة لإدارة الذاكرة تقضي على تجزئة ذاكرة التخزين المؤقت KV، مما يسمح باستغلال شبه مثالي لذاكرة GPU. على عكس خوادم الاستنتاج التقليدية، يوفر vLLM واجهة برمجة تطبيقات (API) متوافقة مع OpenAI، مما يتيح للمطورين الانتقال من مرحلة النموذج الأولي إلى الإنتاج دون إعادة هيكلة كود التطبيق. وهو يدعم مجموعة واسعة من الأجهزة، بما في ذلك NVIDIA GPUs وAMD ROCm وAWS Neuron وGoogle TPUs، مما يجعله المعيار الصناعي لنشر LLM بشكل قابل للتوسع وفعال من حيث التكلفة.
تدير PagedAttention ذاكرة التخزين المؤقت KV في كتل غير متجاورة، على غرار الذاكرة الافتراضية في أنظمة التشغيل. تقلل هذه البنية تجزئة الذاكرة إلى ما يقرب من الصفر، مما يسمح بأحجام دفعات أكبر بكثير ونوافذ سياق أطول. من خلال تحسين كيفية تخصيص الذاكرة أثناء آلية الانتباه، يحقق vLLM إنتاجية أعلى بـ 24 ضعفاً مقارنة بتطبيقات Hugging Face القياسية، مما يقلل بشكل مباشر من تكلفة الأجهزة لكل طلب.
على عكس المعالجة الدفعية الثابتة التي تنتظر انتهاء جميع الطلبات في الدفعة قبل بدء طلبات جديدة، تقوم المعالجة الدفعية المستمرة في vLLM بجدولة طلبات جديدة بمجرد انتهاء التسلسلات الفردية. يعمل هذا النهج الديناميكي على زيادة استخدام GPU إلى الحد الأقصى من خلال ضمان عدم بقاء وحدات الحوسبة خاملة، مما يؤدي بفعالية إلى تسوية طفرات زمن الوصول المرتبطة عادةً بأطوال التسلسلات المتغيرة في استنتاج LLM.
يوفر vLLM بديلاً جاهزاً لخادم OpenAI API. يتيح ذلك للمطورين استبدال نماذج OpenAI المستضافة بنماذج مفتوحة المصدر مستضافة ذاتياً (مثل Llama 3 أو Qwen) دون تغيير سطر واحد من كود جانب العميل. تبسط هذه التوافقية عملية الترحيل وتسمح للفرق بالاستفادة من أدوات النظام البيئي الحالية وSDKs المصممة لمعيار OpenAI.
vLLM محايد تجاه الأجهزة، ويدعم مجموعة واسعة من المسرعات بما في ذلك NVIDIA CUDA وAMD ROCm وAWS Neuron (Inferentia/Trainium) وGoogle TPUs وApple Silicon. تمنع هذه المرونة الارتباط بمورد واحد، مما يسمح لفرق البنية التحتية بنشر النماذج على أكثر الأجهزة فعالية من حيث التكلفة المتاحة، سواء كانت مجموعات محلية أو مثيلات TPU/NPU سحابية.
يدعم المحرك محلياً طرق تكميم متنوعة، بما في ذلك AWQ وGPTQ وFP8 وINT8. من خلال تقليل دقة أوزان النموذج، يقلل vLLM من بصمة VRAM، مما يتيح نشر نماذج أكبر على وحدات GPU للمستهلكين أو ذات الموارد المحدودة دون تدهور كبير في جودة المخرجات، مما يزيد من تحسين نسبة التكلفة إلى الأداء لبيئات الإنتاج.
تستخدم الشركات التي تنشر وكلاء ذكاء اصطناعي موجهين للعملاء vLLM للتعامل مع آلاف الطلبات المتزامنة بزمن وصول منخفض. من خلال استخدام PagedAttention، يحافظون على واجهات محادثة سريعة الاستجابة مع تقليل عدد مثيلات GPU باهظة الثمن المطلوبة لخدمة حركة المرور.
يستخدم علماء البيانات الذين يعالجون ملايين المستندات لمهام التلخيص أو الاستخراج vLLM لزيادة الإنتاجية. تضمن المعالجة الدفعية المستمرة بقاء GPU مشبعاً، مما يقلل بشكل كبير من إجمالي الوقت وتكلفة الكهرباء المطلوبة لإكمال مهام الاستنتاج واسعة النطاق.
تستخدم فرق الهندسة التي تستضيف نماذج خاصة ومعدلة بدقة للأدوات الداخلية vLLM لتوفير واجهة برمجة تطبيقات موحدة وجاهزة للإنتاج. يتيح ذلك لتطبيقات داخلية متعددة استهلاك النموذج عبر نقطة نهاية واحدة موثوقة وقابلة للتوسع.
يحتاجون إلى نشر النماذج في الإنتاج بموثوقية وأداء عاليين. يحل vLLM مشكلة 'عنق زجاجة الإنتاجية'، مما يسمح لهم بخدمة النماذج على نطاق واسع دون الحاجة إلى كتابة نوى استنتاج مخصصة ومعقدة.
يركزون على تحسين الإنفاق السحابي واستخدام الأجهزة. يستخدمون vLLM لزيادة عدد الطلبات لكل GPU، مما يقلل بشكل كبير من التكلفة الإجمالية للملكية للبنية التحتية القائمة على الذكاء الاصطناعي.
يحتاجون إلى التكرار بسرعة والحفاظ على انخفاض التكاليف التشغيلية. يسمح لهم vLLM باستخدام نماذج مفتوحة المصدر كبديل فعال من حيث التكلفة لواجهات برمجة التطبيقات المملوكة، مع الحفاظ على نفس سهولة التكامل.
مشروع مفتوح المصدر بموجب ترخيص Apache 2.0. مجاني تماماً للاستخدام والتعديل والنشر في المشاريع التجارية أو الشخصية.