
Phục vụ LLM lưu lượng cao
Miễn phí
vLLM là công cụ suy luận và phục vụ hiệu năng cao được thiết kế để tối đa hóa lưu lượng và hiệu quả bộ nhớ của các Mô hình Ngôn ngữ Lớn (LLM). Giá trị cốt lõi nằm ở khả năng phục vụ các mô hình với tốc độ yêu cầu cao hơn đáng kể so với các triển khai Hugging Face Transformers tiêu chuẩn. Công cụ này được xây dựng trên PagedAttention, một thuật toán quản lý bộ nhớ độc quyền giúp loại bỏ phân mảnh bộ nhớ đệm KV, cho phép tận dụng bộ nhớ GPU gần như tối ưu. Không giống như các máy chủ suy luận truyền thống, vLLM cung cấp API tương thích với OpenAI, cho phép các nhà phát triển chuyển đổi từ tạo mẫu sang sản xuất mà không cần tái cấu trúc mã ứng dụng. Nó hỗ trợ đa dạng phần cứng, bao gồm NVIDIA GPU, AMD ROCm, AWS Neuron và Google TPU, trở thành tiêu chuẩn công nghiệp cho việc triển khai LLM có khả năng mở rộng và tiết kiệm chi phí.
PagedAttention quản lý bộ nhớ đệm KV trong các khối không liên tục, tương tự như bộ nhớ ảo trong hệ điều hành. Kiến trúc này giảm phân mảnh bộ nhớ xuống gần bằng không, cho phép kích thước batch lớn hơn đáng kể và cửa sổ ngữ cảnh dài hơn. Bằng cách tối ưu hóa cách cấp phát bộ nhớ trong cơ chế attention, vLLM đạt lưu lượng cao hơn tới 24 lần so với các triển khai Hugging Face tiêu chuẩn, trực tiếp giảm chi phí phần cứng trên mỗi yêu cầu.
Không giống như batching tĩnh (phải đợi tất cả yêu cầu trong batch hoàn tất mới bắt đầu batch mới), batching liên tục của vLLM lập lịch các yêu cầu mới ngay khi từng chuỗi hoàn thành. Cách tiếp cận động này tối đa hóa việc sử dụng GPU bằng cách đảm bảo các đơn vị tính toán không bao giờ nhàn rỗi, giúp làm mượt các đột biến độ trễ thường gặp do độ dài chuỗi thay đổi trong suy luận LLM.
vLLM cung cấp giải pháp thay thế trực tiếp cho máy chủ API OpenAI. Điều này cho phép các nhà phát triển thay thế các mô hình được lưu trữ của OpenAI bằng các mô hình mã nguồn mở tự lưu trữ (như Llama 3 hoặc Qwen) mà không cần thay đổi một dòng mã nào ở phía client. Khả năng tương thích này đơn giản hóa quá trình di chuyển và cho phép các nhóm tận dụng các công cụ hệ sinh thái và SDK hiện có được xây dựng cho tiêu chuẩn OpenAI.
vLLM không phụ thuộc vào phần cứng, hỗ trợ nhiều loại bộ tăng tốc bao gồm NVIDIA CUDA, AMD ROCm, AWS Neuron (Inferentia/Trainium), Google TPU và Apple Silicon. Sự linh hoạt này ngăn chặn tình trạng bị khóa bởi nhà cung cấp, cho phép các nhóm hạ tầng triển khai mô hình trên phần cứng tiết kiệm chi phí nhất, dù là cụm máy chủ tại chỗ hay các instance TPU/NPU trên đám mây.
Công cụ hỗ trợ nguyên bản các phương pháp lượng tử hóa khác nhau, bao gồm AWQ, GPTQ, FP8 và INT8. Bằng cách giảm độ chính xác của trọng số mô hình, vLLM giảm dung lượng VRAM, cho phép triển khai các mô hình lớn hơn trên các GPU phổ thông hoặc bị hạn chế về tài nguyên mà không làm giảm đáng kể chất lượng đầu ra, từ đó tối ưu hóa tỷ lệ chi phí/hiệu suất cho môi trường sản xuất.
Các công ty triển khai AI agent phục vụ khách hàng sử dụng vLLM để xử lý hàng ngàn yêu cầu đồng thời với độ trễ thấp. Bằng cách sử dụng PagedAttention, họ duy trì giao diện trò chuyện phản hồi nhanh trong khi giảm thiểu số lượng instance GPU đắt đỏ cần thiết để phục vụ lưu lượng truy cập.
Các nhà khoa học dữ liệu xử lý hàng triệu tài liệu cho các tác vụ tóm tắt hoặc trích xuất sử dụng vLLM để tối đa hóa lưu lượng. Batching liên tục đảm bảo GPU luôn được lấp đầy, giảm đáng kể tổng thời gian và chi phí điện năng cần thiết để hoàn thành các công việc suy luận quy mô lớn.
Các nhóm kỹ thuật lưu trữ các mô hình riêng tư, đã tinh chỉnh cho các công cụ nội bộ sử dụng vLLM để cung cấp một API tiêu chuẩn, sẵn sàng cho sản xuất. Điều này cho phép nhiều ứng dụng nội bộ sử dụng mô hình thông qua một endpoint duy nhất, đáng tin cậy và có khả năng mở rộng.
Cần triển khai mô hình vào sản xuất với độ tin cậy và hiệu suất cao. vLLM giải quyết vấn đề 'nút thắt lưu lượng', cho phép họ phục vụ mô hình ở quy mô lớn mà không cần viết các nhân suy luận tùy chỉnh phức tạp.
Tập trung vào việc tối ưu hóa chi phí đám mây và sử dụng phần cứng. Họ sử dụng vLLM để tối đa hóa số lượng yêu cầu trên mỗi GPU, giảm đáng kể tổng chi phí sở hữu cho hạ tầng dựa trên AI.
Cần lặp lại nhanh chóng và giữ chi phí vận hành thấp. vLLM cho phép họ sử dụng các mô hình mã nguồn mở như một giải pháp thay thế tiết kiệm chi phí cho các API độc quyền, trong khi vẫn duy trì sự dễ dàng trong tích hợp.
Dự án mã nguồn mở theo Giấy phép Apache 2.0. Hoàn toàn miễn phí để sử dụng, sửa đổi và triển khai trong các dự án thương mại hoặc cá nhân.