
Benchmarks de quantização GGUF
Grátis
O localbench fornece uma análise de desempenho rigorosa e baseada em dados para Large Language Models no formato GGUF. Ao contrário de benchmarks genéricos que dependem de datasets estáticos como a Wikipedia, o localbench avalia a qualidade do modelo usando divergência KL em 250.000 tokens de dados de tarefas do mundo real. Ele compara especificamente outputs de quantização de grandes contribuidores como Unsloth e Bartowski, oferecendo aos desenvolvedores uma visão transparente de como diferentes métodos de quantização impactam a perplexidade e as capacidades de raciocínio do modelo. Esta ferramenta é essencial para engenheiros que otimizam implementações locais de LLMs e precisam equilibrar restrições de hardware com a fidelidade do output.
Utiliza a divergência de Kullback-Leibler para medir a distância estatística entre o modelo FP16 original e a versão GGUF quantizada. Isso fornece uma métrica matematicamente rigorosa para a 'perda de informação' durante a quantização, sendo muito mais precisa do que pontuações simples de perplexidade para avaliar o quanto um modelo retém suas capacidades originais de raciocínio após a compressão.
Os benchmarks são conduzidos em 250.000 tokens de tarefas reais e específicas de domínio, em vez de datasets acadêmicos padrão. Isso garante que os resultados reflitam como os modelos se comportam em ambientes de produção reais, como geração de código, sumarização e seguimento de instruções, em vez de apenas testar a memorização de textos estáticos.
Compara diretamente outputs de quantização de diferentes criadores, como Unsloth e Bartowski. Isso permite que os usuários identifiquem quais pipelines de quantização produzem os arquivos GGUF mais estáveis e de alta fidelidade, ajudando desenvolvedores a evitar modelos que possam ter sido degradados por parâmetros de quantização ou scripts de conversão subótimos.
Foca no formato GGUF, que é o padrão da indústria para inferência híbrida CPU/GPU. Ao fornecer dados claros sobre como níveis específicos de quantização funcionam em hardware de nível consumidor, o localbench ajuda desenvolvedores a maximizar sua janela de contexto e throughput de tokens sem exceder os limites de VRAM local.
Fornece visibilidade total do pipeline de testes. Ao documentar a contagem exata de tokens e os tipos de tarefas usados para avaliação, o localbench permite resultados reproduzíveis, permitindo que a comunidade verifique a qualidade de uploads de modelos específicos antes de se comprometer com grandes downloads ou integração em produção.
Engenheiros de IA que constroem pipelines de RAG locais usam o localbench para selecionar a quantização Q4 ou Q5 de maior desempenho, garantindo que mantenham alta precisão enquanto ajustam o modelo dentro de restrições de 8GB ou 16GB de VRAM.
Desenvolvedores que escolhem entre múltiplas versões GGUF do mesmo modelo usam os dados de divergência KL para verificar qual uploader fornece o output mais confiável, reduzindo o risco de alucinações inesperadas do modelo.
Pesquisadores e especialistas em fine-tuning usam os benchmarks para validar seus próprios scripts de quantização, comparando seus resultados com benchmarks estabelecidos para garantir que seu processo de conversão não esteja introduzindo ruído desnecessário.
Precisam implantar LLMs em hardware local e exigem dados precisos sobre como a quantização afeta a qualidade do output do modelo para garantir confiabilidade de nível de produção.
Usuários avançados que executam modelos como Llama 3 ou Mistral localmente e desejam extrair o melhor desempenho de suas GPUs de nível consumidor.
Criadores que fazem upload de modelos GGUF para o HuggingFace e desejam verificar a qualidade de suas conversões em relação aos padrões da indústria.
O conteúdo é fornecido gratuitamente via Substack do localbench. Nenhuma assinatura é necessária para acessar os dados de pesquisa e benchmark.