Проблема, о которой все молчат
Ты знаешь, какую модель хочешь запустить. Llama 3.1 8B, Qwen2.5 32B, Mixtral 8x22B. Открываешь OpenRouter - и видишь тридцать предложений от разных провайдеров. Цены отличаются в пять раз. Скорость - в десять. Где гарантия, что дешёвый вариант не окажется тормозным ведром? Где уверенность, что дорогой провайдер не продаёт тебе ту же квантованную модель, но с наценкой 300%?
Средний разработчик тратит 2-3 часа на поиск оптимального провайдера для своей модели. И часто ошибается, переплачивая или получая неадекватную производительность.
Modelgrep: grep для моделей, а не для текста
Modelgrep - это консольная утилита, которая делает одну простую вещь: ищет самую дешёвую и быструю версию нужной модели среди всех провайдеров OpenRouter. Автор, Остин Кон, написал её за выходные из-за личной боли. Теперь она экономит часы всем остальным.
Что умеет Modelgrep
Базовый сценарий простой:
modelgrep "llama-3.1-8b"
Утилита вернёт таблицу со всеми доступными вариантами модели, отсортированными по цене за миллион входных токенов. Но настоящая магия начинается с флагов:
- --fast - показывает только самые быстрые варианты (по throughput)
- --cheap - фильтрует по минимальной цене
- --min-throughput - устанавливает минимальную скорость в токенах/сек
- --max-price - ограничивает максимальную стоимость
- --json - выводит данные в формате JSON для интеграции в скрипты
Например, если тебе нужна Llama 3.1 8B, но не медленнее 100 токенов в секунду:
modelgrep "llama-3.1-8b" --min-throughput 100
Провайдеры, которые тебя обманывают (и как это обнаружить)
Modelgrep вытаскивает на свет неприятные детали. Одна и та же модель у разных провайдеров может иметь радикально разный throughput при одинаковой цене. Почему? Три причины:
- Разные квантования - кто-то использует Q4_K_M, кто-то Q8_0. Разница в качестве и скорости может быть драматической. (Если интересно, кто портит модели квантованием, а кто нет - читай наш разбор Exacto на OpenRouter)
- Разное железо - A100, H100, L40S, или даже RTX 4090. Modelgrep показывает тип GPU, если провайдер раскрывает эту информацию.
- Загрузка серверов - теоретический throughput и реальный - разные вещи. Modelgrep собирает данные от реальных пользователей.
| Провайдер | Модель | Цена (вход/млн) | Throughput | GPU |
|---|---|---|---|---|
| Provider A | Llama-3.1-8B-Instruct | $0.05 | 85 t/s | A100 |
| Provider B | Llama-3.1-8B-Instruct | $0.07 | 210 t/s | H100 |
| Provider C | Llama-3.1-8B-Instruct-Q4 | $0.03 | 45 t/s | RTX 4090 |
Сравнение с альтернативами: почему не просто OpenRouter UI?
Интерфейс OpenRouter хорош для разовых запросов. Но попробуй сравнить десять моделей по трём параметрам (цена, скорость, качество квантования). Это ад из вкладок и ручного копирования цифр.
Другие инструменты вроде Models Explorer решают другую проблему - поиск альтернатив проприетарным моделям. Modelgrep фокусируется на оптимизации уже выбранной OSS-модели.
Есть ещё ручной метод: самому парсить API OpenRouter. Но зачем, если Modelgrep уже сделал эту работу и добавил агрегирование throughput?
Реальные кейсы использования
1 Быстрый прототип агента
Тебе нужно запустить тестового агента на Qwen2.5 32B. Бюджет ограничен, но скорость важна. Запускаешь:
modelgrep "qwen2.5-32b" --max-price 0.2 --min-throughput 50
Через секунду получаешь список вариантов, которые соответствуют критериям. Выбираешь самый дешёвый из быстрых.
2 Оптимизация costs для продакшена
У тебя работает сервис на Llama 3.1 70B. Тратишь $500 в месяц на инференс. Запускаешь Modelgrep раз в неделю, чтобы проверять, не появились ли более дешёвые провайдеры с аналогичной скоростью. (Кстати, о том, как провайдеры снижают цены и почему это иногда опасно, читай в нашем разборе дешёвого инференса).
3 Сравнение квантованных версий
Хочешь понять, стоит ли переходить с Q4 на Q6 для своей задачи. Modelgrep покажет разницу в цене и скорости между разными квантованиями у разных провайдеров.
Ограничения и подводные камни
Modelgrep не панацея. Вот что нужно держать в голове:
- Данные о throughput не всегда точны - они основаны на пользовательских репортах. Один пользователь мог тестить на пустом сервере, другой - в час пик.
- Нет информации о доступности - провайдер может быть дёшев и быстр, но иметь квоту или лист ожидания.
- Не учитывает географическую задержку - провайдер в Европе может быть медленнее для пользователей из Азии, даже если throughput высокий.
- Только OpenRouter - другие агрегаторы (как новый инференс от OVHcloud) не поддерживаются.
Кому нужен Modelgrep прямо сейчас
Инструмент идеально подходит:
- Стартапам с ограниченным бюджетом - когда каждый цент на счету
- Исследователям - которые тестируют много моделей и хотят минимизировать costs
- Разработчикам AI-агентов - особенно если используешь что-то вроде Agent of Empires и запускаешь несколько моделей параллельно
- Командам, которые только переходят с проприетарных API на OSS - чтобы не переплачивать на первом же этапе
Modelgrep особенно полезен в сочетании с нашим гайдом по выбору GPU-провайдеров. Сначала находишь оптимальную модель, потом - оптимальное железо для её самостоятельного хостинга.
Что дальше? Будущее discovery OSS-моделей
Modelgrep - первый шаг. Идеальный инструмент будущего будет учитывать:
- Качество output разных квантований (сравнительные тесты)
- Стабильность провайдеров (uptime, SLA)
- Максимальную длину контекста (важно для RAG)
- Поддержку function calling, JSON mode, других фич
Пока же Modelgrep остаётся самым простым способом не переплачивать за инференс. Устанавливаешь через pip, делаешь один запрос - и экономишь часы ручного сравнения. Иногда лучшие инструменты - те, что решают одну конкретную проблему, а не пытаются быть всем для всех.
P.S. Если после оптимизации costs с помощью Modelgrep у тебя останутся лишние деньги - не забудь посмотреть наш гайд про аренду H200 и A100 в 2-3 раза дешевле рынка. Цикл оптимизации costs бесконечен.