
Бенчмарки квантования GGUF
Бесплатно
localbench предоставляет строгий анализ производительности LLM в формате GGUF на основе данных. В отличие от стандартных бенчмарков, использующих статические наборы данных вроде Wikipedia, localbench оценивает качество моделей через дивергенцию Кульбака-Лейблера (KL divergence) на 250 000 токенов реальных задач. Инструмент сравнивает результаты квантования от ведущих авторов, таких как Unsloth и Bartowski, предлагая разработчикам прозрачный взгляд на влияние методов квантования на перплексию и логические способности моделей. Это незаменимый ресурс для инженеров, оптимизирующих локальные LLM и балансирующих между аппаратными ограничениями и точностью вывода.
Использует дивергенцию Кульбака-Лейблера для измерения статистического расстояния между оригинальной FP16-моделью и квантованной GGUF-версией. Это математически строгая метрика «потери информации» при квантовании, гораздо более точная, чем простые показатели перплексии, для оценки сохранения логических способностей модели после сжатия.
Бенчмарки проводятся на 250 000 токенов реальных, предметно-ориентированных задач, а не на стандартных академических датасетах. Это гарантирует, что результаты отражают поведение моделей в реальных производственных условиях, таких как генерация кода, суммаризация и следование инструкциям, а не просто проверяют запоминание статического текста.
Напрямую сравнивает результаты квантования от разных создателей, таких как Unsloth и Bartowski. Это позволяет пользователям определить, какие конвейеры квантования создают наиболее стабильные и качественные GGUF-файлы, помогая избегать моделей, деградировавших из-за неоптимальных параметров или скриптов конвертации.
Фокусируется на формате GGUF, который является отраслевым стандартом для гибридного CPU/GPU инференса. Предоставляя четкие данные о работе конкретных уровней квантования на потребительском оборудовании, localbench помогает разработчикам максимизировать контекстное окно и пропускную способность токенов, не превышая лимиты локальной VRAM.
Обеспечивает полную видимость процесса тестирования. Документируя точное количество токенов и типы задач, localbench позволяет воспроизводить результаты, давая сообществу возможность проверить качество конкретных загрузок моделей перед их использованием в продакшене.
AI-инженеры, создающие локальные RAG-конвейеры, используют localbench для выбора наиболее производительного квантования Q4 или Q5, обеспечивая высокую точность при соблюдении ограничений VRAM в 8 ГБ или 16 ГБ.
Разработчики, выбирающие между несколькими GGUF-версиями одной модели, используют данные дивергенции KL для проверки того, какой автор предоставляет наиболее надежный вывод, снижая риск неожиданных галлюцинаций модели.
Исследователи и специалисты по дообучению моделей используют бенчмарки для проверки собственных скриптов квантования, сравнивая свои результаты с установленными стандартами, чтобы убедиться, что процесс конвертации не вносит лишний шум.
Необходимость развертывания LLM на локальном оборудовании и потребность в точных данных о влиянии квантования на качество вывода для обеспечения надежности промышленного уровня.
Продвинутые пользователи, запускающие модели вроде Llama 3 или Mistral локально и желающие выжать максимум производительности из своих потребительских GPU.
Создатели, загружающие GGUF-модели на HuggingFace и желающие подтвердить качество своих конвертаций в соответствии с отраслевыми стандартами.
Контент предоставляется бесплатно через Substack localbench. Подписка для доступа к исследованиям и данным бенчмарков не требуется.