Проблема, о которой все молчат

Ты знаешь, какую модель хочешь запустить. Llama 3.1 8B, Qwen2.5 32B, Mixtral 8x22B. Открываешь OpenRouter - и видишь тридцать предложений от разных провайдеров. Цены отличаются в пять раз. Скорость - в десять. Где гарантия, что дешёвый вариант не окажется тормозным ведром? Где уверенность, что дорогой провайдер не продаёт тебе ту же квантованную модель, но с наценкой 300%?

Средний разработчик тратит 2-3 часа на поиск оптимального провайдера для своей модели. И часто ошибается, переплачивая или получая неадекватную производительность.

Modelgrep: grep для моделей, а не для текста

Modelgrep - это консольная утилита, которая делает одну простую вещь: ищет самую дешёвую и быструю версию нужной модели среди всех провайдеров OpenRouter. Автор, Остин Кон, написал её за выходные из-за личной боли. Теперь она экономит часы всем остальным.

💡

Modelgrep не просто показывает цены. Он агрегирует данные о throughput (токены в секунду) от реальных пользователей. Это важно: провайдер может обещать золотые горы, а на практике модель еле ползёт.

Что умеет Modelgrep

Базовый сценарий простой:

modelgrep "llama-3.1-8b"

Утилита вернёт таблицу со всеми доступными вариантами модели, отсортированными по цене за миллион входных токенов. Но настоящая магия начинается с флагов:

--fast - показывает только самые быстрые варианты (по throughput)
--cheap - фильтрует по минимальной цене
--min-throughput - устанавливает минимальную скорость в токенах/сек
--max-price - ограничивает максимальную стоимость
--json - выводит данные в формате JSON для интеграции в скрипты

Например, если тебе нужна Llama 3.1 8B, но не медленнее 100 токенов в секунду:

modelgrep "llama-3.1-8b" --min-throughput 100

Провайдеры, которые тебя обманывают (и как это обнаружить)

Modelgrep вытаскивает на свет неприятные детали. Одна и та же модель у разных провайдеров может иметь радикально разный throughput при одинаковой цене. Почему? Три причины:

Разные квантования - кто-то использует Q4_K_M, кто-то Q8_0. Разница в качестве и скорости может быть драматической. (Если интересно, кто портит модели квантованием, а кто нет - читай наш разбор Exacto на OpenRouter)
Разное железо - A100, H100, L40S, или даже RTX 4090. Modelgrep показывает тип GPU, если провайдер раскрывает эту информацию.
Загрузка серверов - теоретический throughput и реальный - разные вещи. Modelgrep собирает данные от реальных пользователей.

Провайдер	Модель	Цена (вход/млн)	Throughput	GPU
Provider A	Llama-3.1-8B-Instruct	$0.05	85 t/s	A100
Provider B	Llama-3.1-8B-Instruct	$0.07	210 t/s	H100
Provider C	Llama-3.1-8B-Instruct-Q4	$0.03	45 t/s	RTX 4090

Сравнение с альтернативами: почему не просто OpenRouter UI?

Интерфейс OpenRouter хорош для разовых запросов. Но попробуй сравнить десять моделей по трём параметрам (цена, скорость, качество квантования). Это ад из вкладок и ручного копирования цифр.

Другие инструменты вроде Models Explorer решают другую проблему - поиск альтернатив проприетарным моделям. Modelgrep фокусируется на оптимизации уже выбранной OSS-модели.

Есть ещё ручной метод: самому парсить API OpenRouter. Но зачем, если Modelgrep уже сделал эту работу и добавил агрегирование throughput?

Реальные кейсы использования

1 Быстрый прототип агента

Тебе нужно запустить тестового агента на Qwen2.5 32B. Бюджет ограничен, но скорость важна. Запускаешь:

modelgrep "qwen2.5-32b" --max-price 0.2 --min-throughput 50

Через секунду получаешь список вариантов, которые соответствуют критериям. Выбираешь самый дешёвый из быстрых.

2 Оптимизация costs для продакшена

У тебя работает сервис на Llama 3.1 70B. Тратишь $500 в месяц на инференс. Запускаешь Modelgrep раз в неделю, чтобы проверять, не появились ли более дешёвые провайдеры с аналогичной скоростью. (Кстати, о том, как провайдеры снижают цены и почему это иногда опасно, читай в нашем разборе дешёвого инференса).

3 Сравнение квантованных версий

Хочешь понять, стоит ли переходить с Q4 на Q6 для своей задачи. Modelgrep покажет разницу в цене и скорости между разными квантованиями у разных провайдеров.

Ограничения и подводные камни

Modelgrep не панацея. Вот что нужно держать в голове:

Данные о throughput не всегда точны - они основаны на пользовательских репортах. Один пользователь мог тестить на пустом сервере, другой - в час пик.
Нет информации о доступности - провайдер может быть дёшев и быстр, но иметь квоту или лист ожидания.
Не учитывает географическую задержку - провайдер в Европе может быть медленнее для пользователей из Азии, даже если throughput высокий.
Только OpenRouter - другие агрегаторы (как новый инференс от OVHcloud) не поддерживаются.

Кому нужен Modelgrep прямо сейчас

Инструмент идеально подходит:

Стартапам с ограниченным бюджетом - когда каждый цент на счету
Исследователям - которые тестируют много моделей и хотят минимизировать costs
Разработчикам AI-агентов - особенно если используешь что-то вроде Agent of Empires и запускаешь несколько моделей параллельно
Командам, которые только переходят с проприетарных API на OSS - чтобы не переплачивать на первом же этапе

Modelgrep особенно полезен в сочетании с нашим гайдом по выбору GPU-провайдеров. Сначала находишь оптимальную модель, потом - оптимальное железо для её самостоятельного хостинга.

Что дальше? Будущее discovery OSS-моделей

Modelgrep - первый шаг. Идеальный инструмент будущего будет учитывать:

Качество output разных квантований (сравнительные тесты)
Стабильность провайдеров (uptime, SLA)
Максимальную длину контекста (важно для RAG)
Поддержку function calling, JSON mode, других фич

Пока же Modelgrep остаётся самым простым способом не переплачивать за инференс. Устанавливаешь через pip, делаешь один запрос - и экономишь часы ручного сравнения. Иногда лучшие инструменты - те, что решают одну конкретную проблему, а не пытаются быть всем для всех.

P.S. Если после оптимизации costs с помощью Modelgrep у тебя останутся лишние деньги - не забудь посмотреть наш гайд про аренду H200 и A100 в 2-3 раза дешевле рынка. Цикл оптимизации costs бесконечен.

Modelgrep: как найти дешёвые и быстрые OSS-модели у хостинг-провайдеров