Мы все смотрели не туда
Последний год в мире LLM был похож на олимпиаду по математике. Каждый месяц - новый рекорд на MMLU, новый чемпион в HumanEval. Meta выпускает Llama 3.2 120B, все аплодируют цифрам. DeepSeek бьет рекорды в GSM8K. Мы сравнивали модели как школьные оценки: кто умнее, кто лучше решает задачи.
А потом кто-то посчитал счета за облако.
Или попытался запустить эту самую 120B-модель на реальной инфраструктуре для реальных пользователей. И понял, что гениальный ответ, который приходит через 15 секунд, никому не нужен. Потому что пользователь ушел на третьей.
Вспомните последний раз, когда вы ждали ответ от ChatGPT больше 5 секунд. Вы просто обновили страницу, правда? Вот и весь секрет.
Новые герои бенчмарков: TIME и $
Пока все смотрели на accuracy, умные ребята уже давно меряют другое:
- Time to First Token (TTFT) - сколько ждать первого слова. Критично для чатов.
- Tokens per Second (TPS) - скорость генерации после старта.
- Throughput при параллельных запросах - как модель ведет себя под нагрузкой, а не в вакууме.
- Стоимость инференса на 1000 токенов - самый честный показатель. Можно быть гением, но если твой ответ стоит как обед в ресторане - прощай, бизнес-кейс.
Вот вам пример. Есть две модели для машинного перевода в корпоративном проекте:
| Модель | Качество (BLEU) | Время ответа | Стоимость/1000 токенов |
|---|---|---|---|
| Модель A (большая) | 92 | 4.2 сек | $0.12 |
| Модель B (маленькая) | 88 | 0.8 сек | $0.02 |
Какую выберет бизнес? Правильно, вторую. Потому что разница в 4 пункта качества не стоит шестикратного увеличения стоимости и пятикратного замедления.
Провал академических бенчмарков
MMLU, HellaSwag, TruthfulQA - все эти датасеты прекрасны для научных статей. Но они ничего не говорят о том, как модель поведет себя в продакшене.
В реальности важнее другое: как быстро модель понимает, что от нее хотят (тот самый TTFT). Как она держит нагрузку, когда 1000 пользователей одновременно спрашивают о погоде. Сколько электричества сжирает, пока генерирует ответ про преимущества блокчейна.
Или взгляните на сравнение квантованных моделей. Там уже давно смотрят не только на падение accuracy, но и на прирост скорости. Потому что Q2 может быть на 5% хуже в тестах, но в три раза быстрее. И для многих применений это fair trade.
Экономика победила физику
Раньше ограничением были вычислительные мощности. Нельзя сделать модель умнее - не хватит GPU. Теперь ограничение - экономика.
Представьте, что вы запускаете сервис с 1000 одновременных пользователей. Каждый делает по 10 запросов в день. Это 10 000 инференсов.
- С моделью за $0.10/запрос - $1000 в день
- С моделью за $0.02/запрос - $200 в день
Разница в $800 ежедневно. За месяц - $24 000. За год - почти $300 000.
Теперь скажите: насколько "умнее" должна быть первая модель, чтобы оправдать такие расходы? На 20%? На 50%? В реальности даже 10% преимущества в качестве редко конвертируется в дополнительную выручку.
Это и есть главный сдвиг: мы перестали спрашивать "Насколько модель умная?" и начали спрашивать "Насколько она экономически целесообразная?".
Что будет дальше? (Спойлер: ничего хорошего для гигантов)
Тренд уже виден по новым релизам. Посмотрите на MiniMax M2 и другие эффективные модели. Или на квантованные версии Qwen3.
Все они оптимизированы не для победы в академических тестах, а для работы в реальных условиях:
- Меньший размер - быстрее загрузка в память
- Эффективное квантование - выше throughput
- Оптимизация под конкретное железо - ниже latency
Даже такие проекты, как Falcon H1R 7B с контекстом 256k, теперь рекламируют не только длину контекста, но и эффективность его обработки.
А что будет с огромными моделями вроде той самой Llama 3.2 120B? Они останутся нишевым инструментом для задач, где качество критически важно и готовы платить любые деньги. Как суперкомпьютеры для прогноза погоды или медицинских исследований.
Но для 95% бизнес-кейсов, о которых пишут в статьях про "конец эйфории", победят маленькие, быстрые и дешевые модели.
Как выбирать модель в 2025 году
Забудьте про топовые строчки в leaderboard. Ваш чеклист должен выглядеть так:
- Определите SLA по времени ответа для вашего use case. Чат-бот? Не больше 2 секунд. Фоновый анализ документов? Можно и 30 секунд.
- Посчитайте бюджет на инференс исходя из ожидаемого количества запросов. Прямо в Excel, с цифрами.
- Протестируйте не на 1 запросе, а на 100 параллельных. Как в практическом руководстве по оценке качества, но добавив метрики производительности.
- Сравните не accuracy, а accuracy/стоимость и accuracy/время. Это новые KPI.
И да, собирайте свои собственные бенчмарки. Берите промпты для тестирования, добавляйте замеры времени и стоимости. Потому что ваша задача - не выбрать самую умную модель в мире, а выбрать самую подходящую для вашего бизнеса.
Эра бездумной погони за качеством закончилась. Начинается эра инженерной эффективности. Где побеждает не тот, у кого модель умнее, а тот, у кого она быстрее и дешевле при приемлемом качестве.
И это, между прочим, хорошие новости. Потому что значит, AI становится нормальной инженерной дисциплиной. Со сметами, бюджетами и ROI. А не магической технологией, где главное - получить волшебный ответ, а сколько он стоит - неважно.