
Benchmarks de quantification GGUF
Gratuit
localbench fournit une analyse de performance rigoureuse et basée sur les données pour les Large Language Models au format GGUF. Contrairement aux benchmarks génériques utilisant des jeux de données statiques comme Wikipédia, localbench évalue la qualité des modèles via la divergence KL sur 250 000 tokens de tâches réelles. Il compare spécifiquement les sorties de quantification de contributeurs majeurs comme Unsloth et Bartowski, offrant aux développeurs une vision transparente de l'impact des méthodes de quantification sur la perplexité et les capacités de raisonnement. Cet outil est essentiel pour les ingénieurs optimisant des déploiements LLM locaux devant équilibrer contraintes matérielles et fidélité des résultats.
Utilise la divergence de Kullback-Leibler pour mesurer la distance statistique entre le modèle FP16 original et la version GGUF quantifiée. Cela fournit une métrique mathématiquement rigoureuse de la « perte d'information » lors de la quantification, bien plus précise que les scores de perplexité simples pour évaluer la conservation des capacités de raisonnement après compression.
Les benchmarks sont effectués sur 250 000 tokens de tâches réelles et spécifiques à un domaine plutôt que sur des jeux de données académiques standards. Cela garantit que les résultats reflètent le comportement des modèles en environnement de production (génération de code, résumé, suivi d'instructions) plutôt qu'une simple mémorisation de texte statique.
Compare directement les sorties de quantification de différents créateurs comme Unsloth et Bartowski. Cela permet aux utilisateurs d'identifier quels pipelines de quantification produisent les fichiers GGUF les plus stables et fidèles, aidant les développeurs à éviter les modèles dégradés par des paramètres de quantification ou des scripts de conversion sous-optimaux.
Se concentre sur le format GGUF, standard industriel pour l'inférence hybride CPU/GPU. En fournissant des données claires sur les performances de niveaux de quantification spécifiques sur du matériel grand public, localbench aide les développeurs à maximiser leur fenêtre de contexte et leur débit de tokens sans dépasser les limites de VRAM locale.
Offre une visibilité totale sur le pipeline de test. En documentant le nombre exact de tokens et les types de tâches utilisés pour l'évaluation, localbench permet d'obtenir des résultats reproductibles, permettant à la communauté de vérifier la qualité des modèles avant tout téléchargement massif ou intégration en production.
Les ingénieurs IA construisant des pipelines RAG locaux utilisent localbench pour sélectionner la quantification Q4 ou Q5 la plus performante, garantissant une haute précision tout en respectant les contraintes de 8 Go ou 16 Go de VRAM.
Les développeurs choisissant entre plusieurs versions GGUF d'un même modèle utilisent les données de divergence KL pour vérifier quel contributeur fournit la sortie la plus fiable, réduisant le risque d'hallucinations inattendues.
Les chercheurs et les experts en fine-tuning utilisent ces benchmarks pour valider leurs propres scripts de quantification, en comparant leurs résultats aux standards établis pour s'assurer que leur processus de conversion n'introduit pas de bruit inutile.
Besoin de déployer des LLM sur du matériel local et requièrent des données précises sur l'impact de la quantification sur la qualité de sortie pour garantir une fiabilité de niveau production.
Utilisateurs avancés exécutant des modèles comme Llama 3 ou Mistral localement et souhaitant tirer le meilleur parti de leurs GPU grand public.
Créateurs téléversant des modèles GGUF sur HuggingFace souhaitant vérifier la qualité de leurs conversions par rapport aux standards de l'industrie.
Le contenu est fourni gratuitement via le Substack de localbench. Aucun abonnement n'est requis pour accéder aux recherches et aux données de benchmark.