Hugging Face запускает децентрализованные лидерборды | 01.03.2026

Чёрные ящики лопнули: почему старые бенчмарки больше не работают

Представьте: вы выбираете модель для своего проекта, смотрите на лидерборд Hugging Face Open LLM Leaderboard, и видите, что какая-то новая модель обгоняет GPT-4 по MMLU. Вы качаете её, запускаете — а она не может связать двух слов в вашей задаче. Знакомо? Это не ваша вина. Это система сломана.

К 2026 году классические бенчмарки вроде MMLU, GLUE, SuperGLUE превратились в игру "угадай, как обмануть тест". Модели, особенно проприетарные вроде GPT-5 или открытые Llama 4, тонко настраиваются на эти датасеты. Результаты взлетают, но реальная производительность остаётся где-то в 2023 году.

💡

Хотите пример? Возьмите GLM-4.7 Flash — модель, которая в бенчмарках сияет, а в диалоге иногда выдаёт откровенный бред. Или новые uncensored-модели, которые мы разбирали недавно — их оценки часто не отражают реальную полезность.

Hugging Face это понял. И сегодня, 1 марта 2026 года, они официально запускают децентрализованные лидерборды. Идея проста: дать сообществу инструменты для создания, проверки и верификации бенчмарков. Больше никаких чёрных ящиков.

Как устроены децентрализованные лидерборды

Система называется Community Evals. Если коротко: любой пользователь может создать набор данных для оценки модели, предложить его через Pull Request, и после проверки сообществом этот бенчмарк становится частью лидерборда. Каждая оценка — прозрачна, воспроизводима и привязана к конкретной версии модели.

Вы больше не увидите просто цифру 85.3% на MMLU. Вы увидите, что модель Qwen2.5-32B-Instruct набрала 84.7% на бенчмарке "Код-ревью на Python", созданном пользователем github_alex, и этот результат проверен 17 другими участниками. Всё — с ссылками на код, датасеты и логи выполнения.

Детали того, как работает эта система, мы уже разбирали в отдельной статье. Суть в децентрализации: нет единого центра, который решает, что важно. Сообщество голосует кодом.

Важно: это не значит, что старые бенчмарки исчезнут. Они останутся, но теперь будут одним из многих источников. И их результаты тоже будут проверяться сообществом — что, скорее всего, выявит множество натяжек.

Кто выигрывает от этого хаоса?

Первые — разработчики, которые выбирают модели для production. Вместо абстрактных цифр, они смогут смотреть на оценки в конкретных доменах: кодогенерация, медицинские вопросы, юридические тексты. И видеть, кто и как эти оценки проверил.

Вторые — исследователи. Теперь можно опубликовать модель и сразу приложить воспроизводимые результаты по десяткам бенчмарков. Больше не нужно платить за вычисления на закрытых датасетах. Как в случае с Karp-001 и Pisces-llm от Qwen и ByteDance — они тестируют модели в тени, но с Community Evals результаты станут публичными и проверяемыми.

Третьи — все, кто устал от маркетинговых заявлений. Помните скандал, когда Anthropic обвинил open-source сообщество в копировании их данных? Этот конфликт Anthropic и open-source показал, как важно иметь прозрачные методы оценки. Теперь они есть.

Практика: как вляпаться в Community Evals

Хотите добавить свой бенчмарк? Процесс напоминает open-source проект. Вы создаёте датасет на Hugging Face Datasets, пишите скрипт оценки, отправляете PR в репозиторий Community Evals. Сообщество проверяет, дискутирует, и если всё хорошо — ваша метрика появляется в лидерборде.

Звучит просто, но есть нюансы. Например, как обеспечить воспроизводимость? Как избежать накруток? Hugging Face вводит систему верифицированных бейджей для проверенных участников. Но это тоже децентрализовано: бейджи выдаются за вклад, а не по прихоти администрации.

Если хотите подробный гайд, как создавать и проверять бенчмарки, у нас есть отдельная статья на эту тему. Там шаг за шагом разобраны все технические детали.

💡

Совет: начните с малого. Не пытайтесь сразу оценить модель на 100 задачах. Возьмите одну конкретную область, где вы эксперт — например, перевод с узбекского на суахили — и создайте бенчмарк для неё. Так вы быстрее получите обратную связь и влияние.

Что будет с GPT-5, Llama 4 и другими монстрами?

Децентрализованные лидерборды меняют правила игры для больших игроков. Теперь нельзя просто заплатить за масштабное вычисление на приватном датасете и заявить о превосходстве. Придётся открывать методологию. Или сообщество сделает это за вас — с критикой.

Для open-source моделей это золотое время. Модели вроде тех, что доступны через слияние llama.cpp и Hugging Face, получат честные оценки на реальных задачах. И может оказаться, что маленькая моделька, оптимизированная для Apple Silicon, работает лучше гиганта от Google на конкретных устройствах. Кстати, о мусоре на Apple Silicon: наша статья про битые модели MLX показывает, как важно сообщество в фильтрации контента.

Прогноз: через год верхние строчки лидербордов займут не те модели, у которых больше параметров, а те, у которых больше проверенных оценок по полезным бенчмаркам. Репутация будет строиться на прозрачности, а не на маркетинговом бюджете.

И последнее: не доверяйте слепо новым системам. Community Evals — это инструмент, который можно использовать как во благо, так и во вред. Уже сейчас есть риск создания эхо-камер, где только популярные модели получают внимание. Боритесь с этим. Создавайте бенчмарки для нишевых задач. Проверяйте результаты других. И помните, что даже самый прозрачный лидерборд не заменит вашего собственного тестирования.

P.S. Если вы хотите быстро скачивать модели для своих тестов, воспользуйтесь HuggingFace Downloader v2.3.0 — он теперь сканирует в 100 раз быстрее. Но это уже другая история.

Подписаться на канал

Hugging Face запускает децентрализованные лидерборды: конец эпохи чёрных ящиков и как сообщество будет оценивать модели

Чёрные ящики лопнули: почему старые бенчмарки больше не работают

Как устроены децентрализованные лидерборды

Кто выигрывает от этого хаоса?

Практика: как вляпаться в Community Evals

Что будет с GPT-5, Llama 4 и другими монстрами?

Подписывайтесь на наш канал!