
บริการ LLM ประสิทธิภาพสูง
vLLM คือเอนจินสำหรับการอนุมาน (Inference) และการให้บริการที่ออกแบบมาเพื่อเพิ่ม Throughput และประสิทธิภาพการใช้หน่วยความจำของ Large Language Models (LLMs) ให้สูงสุด จุดเด่นสำคัญคือความสามารถในการให้บริการโมเดลด้วยอัตราคำขอที่สูงกว่าการใช้งาน Hugging Face Transformers แบบมาตรฐานอย่างมาก เอนจินนี้สร้างขึ้นบน PagedAttention ซึ่งเป็นอัลกอริทึมการจัดการหน่วยความจำที่เป็นกรรมสิทธิ์ ช่วยขจัดปัญหา KV cache fragmentation ทำให้สามารถใช้หน่วยความจำ GPU ได้อย่างเต็มประสิทธิภาพ ต่างจากเซิร์ฟเวอร์อนุมานทั่วไป vLLM มี API ที่รองรับมาตรฐาน OpenAI ทำให้ผู้พัฒนาสามารถเปลี่ยนจากการทำ Prototyping ไปสู่ Production ได้โดยไม่ต้องแก้ไขโค้ดแอปพลิเคชัน รองรับฮาร์ดแวร์หลากหลาย เช่น NVIDIA GPUs, AMD ROCm, AWS Neuron และ Google TPUs จึงเป็นมาตรฐานอุตสาหกรรมสำหรับการปรับใช้ LLM ที่ขยายตัวได้และคุ้มค่า
PagedAttention จัดการหน่วยความจำ KV cache ในบล็อกที่ไม่ต่อเนื่องกัน คล้ายกับหน่วยความจำเสมือนในระบบปฏิบัติการ สถาปัตยกรรมนี้ช่วยลดการกระจายตัวของหน่วยความจำจนเกือบเป็นศูนย์ ทำให้รองรับ Batch size ที่ใหญ่ขึ้นและ Context window ที่ยาวขึ้น ด้วยการปรับปรุงการจัดสรรหน่วยความจำระหว่างกลไก Attention ทำให้ vLLM มี Throughput สูงกว่าการใช้งาน Hugging Face มาตรฐานถึง 24 เท่า ซึ่งช่วยลดต้นทุนฮาร์ดแวร์ต่อคำขอโดยตรง
ต่างจาก Static batching ที่ต้องรอให้คำขอทั้งหมดใน Batch เสร็จสิ้นก่อนเริ่มชุดใหม่ Continuous batching ของ vLLM จะจัดตารางคำขอใหม่ทันทีที่ลำดับงานแต่ละรายการเสร็จสิ้น แนวทางแบบไดนามิกนี้ช่วยเพิ่มการใช้ GPU ให้สูงสุดโดยทำให้หน่วยประมวลผลไม่เคยว่างงาน ช่วยลดความผันผวนของ Latency ที่มักเกิดขึ้นจากความยาวของลำดับงานที่แตกต่างกันในการอนุมาน LLM
vLLM มีเซิร์ฟเวอร์ API ที่สามารถแทนที่ OpenAI API ได้ทันที ช่วยให้นักพัฒนาสามารถเปลี่ยนจากโมเดลที่โฮสต์โดย OpenAI มาเป็นโมเดล Open-source ที่โฮสต์เอง (เช่น Llama 3 หรือ Qwen) ได้โดยไม่ต้องเปลี่ยนโค้ดฝั่ง Client แม้แต่บรรทัดเดียว ความเข้ากันได้นี้ช่วยลดความซับซ้อนในการย้ายระบบและช่วยให้ทีมสามารถใช้เครื่องมือและ SDK ในระบบนิเวศเดิมที่สร้างขึ้นสำหรับมาตรฐาน OpenAI ได้
vLLM ไม่ยึดติดกับฮาร์ดแวร์ โดยรองรับตัวเร่งความเร็วหลากหลายประเภท เช่น NVIDIA CUDA, AMD ROCm, AWS Neuron (Inferentia/Trainium), Google TPUs และ Apple Silicon ความยืดหยุ่นนี้ช่วยป้องกันปัญหา Vendor lock-in ทำให้ทีมโครงสร้างพื้นฐานสามารถปรับใช้โมเดลบนฮาร์ดแวร์ที่คุ้มค่าที่สุดได้ ไม่ว่าจะเป็นคลัสเตอร์ภายในองค์กรหรืออินสแตนซ์ TPU/NPU บนคลาวด์
เอนจินรองรับวิธีการ Quantization ต่างๆ ได้โดยตรง เช่น AWQ, GPTQ, FP8 และ INT8 การลดความละเอียดของน้ำหนักโมเดลช่วยลดการใช้ VRAM ทำให้สามารถปรับใช้โมเดลขนาดใหญ่บน GPU ระดับผู้บริโภคหรือ GPU ที่มีทรัพยากรจำกัดได้โดยไม่สูญเสียคุณภาพผลลัพธ์อย่างมีนัยสำคัญ ซึ่งช่วยเพิ่มประสิทธิภาพด้านต้นทุนต่อผลลัพธ์สำหรับสภาพแวดล้อมการใช้งานจริง
บริษัทที่ใช้งาน AI Agent สำหรับลูกค้าใช้ vLLM เพื่อจัดการคำขอพร้อมกันหลายพันรายการด้วย Latency ต่ำ ด้วยการใช้ PagedAttention พวกเขาสามารถรักษาอินเทอร์เฟซการแชทที่ตอบสนองรวดเร็วในขณะที่ลดจำนวนอินสแตนซ์ GPU ราคาแพงที่จำเป็นในการรองรับการใช้งาน
นักวิทยาศาสตร์ข้อมูลที่ประมวลผลเอกสารนับล้านฉบับสำหรับงานสรุปความหรือการดึงข้อมูลใช้ vLLM เพื่อเพิ่ม Throughput ให้สูงสุด Continuous batching ช่วยให้ GPU ทำงานเต็มประสิทธิภาพตลอดเวลา ซึ่งช่วยลดเวลาทั้งหมดและค่าไฟฟ้าที่จำเป็นในการทำงานอนุมานขนาดใหญ่ได้อย่างมาก
ทีมวิศวกรที่โฮสต์โมเดลส่วนตัวที่ผ่านการ Fine-tune สำหรับเครื่องมือภายในใช้ vLLM เพื่อจัดเตรียม API ที่ได้มาตรฐานและพร้อมใช้งานจริง ช่วยให้แอปพลิเคชันภายในหลายตัวสามารถเรียกใช้โมเดลผ่าน Endpoint เดียวที่เชื่อถือได้และขยายตัวได้
ต้องการปรับใช้โมเดลในระดับ Production ด้วยความน่าเชื่อถือและประสิทธิภาพสูง vLLM ช่วยแก้ปัญหาคอขวดของ Throughput ทำให้สามารถให้บริการโมเดลในระดับสเกลได้โดยไม่ต้องเขียน Kernel สำหรับการอนุมานที่ซับซ้อนขึ้นมาเอง
มุ่งเน้นการเพิ่มประสิทธิภาพการใช้จ่ายบนคลาวด์และการใช้ฮาร์ดแวร์ พวกเขาใช้ vLLM เพื่อเพิ่มจำนวนคำขอต่อ GPU ให้สูงสุด ซึ่งช่วยลดต้นทุนรวมในการเป็นเจ้าของ (TCO) สำหรับโครงสร้างพื้นฐานที่ขับเคลื่อนด้วย AI
ต้องการพัฒนาอย่างรวดเร็วและรักษาต้นทุนการดำเนินงานให้ต่ำ vLLM ช่วยให้พวกเขาสามารถใช้โมเดล Open-source เป็นทางเลือกที่คุ้มค่าแทน API แบบปิด ในขณะที่ยังคงความง่ายในการเชื่อมต่อระบบ
เป็นโครงการ Open source ภายใต้ใบอนุญาต Apache 2.0 สามารถใช้งาน แก้ไข และปรับใช้ในเชิงพาณิชย์หรือโครงการส่วนตัวได้ฟรีโดยไม่มีค่าใช้จ่าย