Скорость и стоимость LLM важнее качества: новый тренд в бенчмарках | AiManual
AiManual Logo Ai / Manual.
18 Янв 2026 Новости

Бенчмарки LLM: гонка за качеством закончилась. Теперь считают секунды и доллары

Почему метрики времени генерации и стоимости инференса скоро заменят традиционные бенчмарки качества LLM. Анализ тренда в оценке больших языковых моделей.

Мы все смотрели не туда

Последний год в мире LLM был похож на олимпиаду по математике. Каждый месяц - новый рекорд на MMLU, новый чемпион в HumanEval. Meta выпускает Llama 3.2 120B, все аплодируют цифрам. DeepSeek бьет рекорды в GSM8K. Мы сравнивали модели как школьные оценки: кто умнее, кто лучше решает задачи.

А потом кто-то посчитал счета за облако.

Или попытался запустить эту самую 120B-модель на реальной инфраструктуре для реальных пользователей. И понял, что гениальный ответ, который приходит через 15 секунд, никому не нужен. Потому что пользователь ушел на третьей.

Вспомните последний раз, когда вы ждали ответ от ChatGPT больше 5 секунд. Вы просто обновили страницу, правда? Вот и весь секрет.

Новые герои бенчмарков: TIME и $

Пока все смотрели на accuracy, умные ребята уже давно меряют другое:

  • Time to First Token (TTFT) - сколько ждать первого слова. Критично для чатов.
  • Tokens per Second (TPS) - скорость генерации после старта.
  • Throughput при параллельных запросах - как модель ведет себя под нагрузкой, а не в вакууме.
  • Стоимость инференса на 1000 токенов - самый честный показатель. Можно быть гением, но если твой ответ стоит как обед в ресторане - прощай, бизнес-кейс.

Вот вам пример. Есть две модели для машинного перевода в корпоративном проекте:

Модель Качество (BLEU) Время ответа Стоимость/1000 токенов
Модель A (большая) 92 4.2 сек $0.12
Модель B (маленькая) 88 0.8 сек $0.02

Какую выберет бизнес? Правильно, вторую. Потому что разница в 4 пункта качества не стоит шестикратного увеличения стоимости и пятикратного замедления.

Провал академических бенчмарков

MMLU, HellaSwag, TruthfulQA - все эти датасеты прекрасны для научных статей. Но они ничего не говорят о том, как модель поведет себя в продакшене.

В реальности важнее другое: как быстро модель понимает, что от нее хотят (тот самый TTFT). Как она держит нагрузку, когда 1000 пользователей одновременно спрашивают о погоде. Сколько электричества сжирает, пока генерирует ответ про преимущества блокчейна.

💡
Именно поэтому появляются бенчмарки вроде SWE-bench - они измеряют не абстрактное "знание", а способность выполнять конкретные задачи (исправить баг в коде) за ограниченное время.

Или взгляните на сравнение квантованных моделей. Там уже давно смотрят не только на падение accuracy, но и на прирост скорости. Потому что Q2 может быть на 5% хуже в тестах, но в три раза быстрее. И для многих применений это fair trade.

Экономика победила физику

Раньше ограничением были вычислительные мощности. Нельзя сделать модель умнее - не хватит GPU. Теперь ограничение - экономика.

Представьте, что вы запускаете сервис с 1000 одновременных пользователей. Каждый делает по 10 запросов в день. Это 10 000 инференсов.

  • С моделью за $0.10/запрос - $1000 в день
  • С моделью за $0.02/запрос - $200 в день

Разница в $800 ежедневно. За месяц - $24 000. За год - почти $300 000.

Теперь скажите: насколько "умнее" должна быть первая модель, чтобы оправдать такие расходы? На 20%? На 50%? В реальности даже 10% преимущества в качестве редко конвертируется в дополнительную выручку.

Это и есть главный сдвиг: мы перестали спрашивать "Насколько модель умная?" и начали спрашивать "Насколько она экономически целесообразная?".

Что будет дальше? (Спойлер: ничего хорошего для гигантов)

Тренд уже виден по новым релизам. Посмотрите на MiniMax M2 и другие эффективные модели. Или на квантованные версии Qwen3.

Все они оптимизированы не для победы в академических тестах, а для работы в реальных условиях:

  1. Меньший размер - быстрее загрузка в память
  2. Эффективное квантование - выше throughput
  3. Оптимизация под конкретное железо - ниже latency

Даже такие проекты, как Falcon H1R 7B с контекстом 256k, теперь рекламируют не только длину контекста, но и эффективность его обработки.

А что будет с огромными моделями вроде той самой Llama 3.2 120B? Они останутся нишевым инструментом для задач, где качество критически важно и готовы платить любые деньги. Как суперкомпьютеры для прогноза погоды или медицинских исследований.

Но для 95% бизнес-кейсов, о которых пишут в статьях про "конец эйфории", победят маленькие, быстрые и дешевые модели.

Как выбирать модель в 2025 году

Забудьте про топовые строчки в leaderboard. Ваш чеклист должен выглядеть так:

  1. Определите SLA по времени ответа для вашего use case. Чат-бот? Не больше 2 секунд. Фоновый анализ документов? Можно и 30 секунд.
  2. Посчитайте бюджет на инференс исходя из ожидаемого количества запросов. Прямо в Excel, с цифрами.
  3. Протестируйте не на 1 запросе, а на 100 параллельных. Как в практическом руководстве по оценке качества, но добавив метрики производительности.
  4. Сравните не accuracy, а accuracy/стоимость и accuracy/время. Это новые KPI.

И да, собирайте свои собственные бенчмарки. Берите промпты для тестирования, добавляйте замеры времени и стоимости. Потому что ваша задача - не выбрать самую умную модель в мире, а выбрать самую подходящую для вашего бизнеса.

Эра бездумной погони за качеством закончилась. Начинается эра инженерной эффективности. Где побеждает не тот, у кого модель умнее, а тот, у кого она быстрее и дешевле при приемлемом качестве.

И это, между прочим, хорошие новости. Потому что значит, AI становится нормальной инженерной дисциплиной. Со сметами, бюджетами и ROI. А не магической технологией, где главное - получить волшебный ответ, а сколько он стоит - неважно.