Есть модели, которые впечатляют цифрами на бумаге, а есть те, что заставляют пересобрать компьютер. Ornith 35B FP8 — из вторых. Когда ребята из Nexusflow выкатили версию с FP8-квантованием и Multi-Turn Prompting (MTP), я сначала фыркнул: «Очередной Qwen-клон на стероидах». Но потом вставил её в своего агента для рефакторинга легаси-кода и… заткнулся. Эта штука реально умеет держать контекст правок, не сбиваясь в «извините, я языковая модель».

⚡

Ornith 35B FP8 — не очередной «убийца ChatGPT». Это инструмент для тех, кто готов пожертвовать парой FPS в Cyberpunk ради генерации рабочего кода без облачных очередей.

Что под капотом: FP8, MTP и почему это работает

Базовая модель Ornith-1.0-35B в своём оригинале весила ~70 ГБ в bf16. FP8 квантование обрезает вес до смешных 35–40 ГБ, влезая в 24 ГБ VRAM с запасом. Но главная фишка — не в сжатии, а в Multi-Turn Prompting. В отличие от стандартного speculative decoding, где модель-черновик предсказывает токены, а большая модель их проверяет, MTP делает хитрее: он запоминает паттерны предыдущих вызовов функций (tools) и использует их как «подсказки» для следующего шага. На практике это даёт до 45 токенов в секунду на RTX 4090 — те самые цифры, которые мы уже разбирали в новости про GGUF. Только теперь это не просто цифры, а стабильная работа без падений качества.

Параметр	Ornith 35B FP8	Qwen2.5 32B Q4_K_M	DeepSeek-Coder V2 16B FP8
Размер модели	~38 ГБ (FP8)	~19 ГБ (Q4)	~16 ГБ (FP8)
Макс. контекст	128K токенов	128K токенов	64K токенов
Скорость MTP (RTX 4090)	~45 t/s	~30 t/s (без MTP)	~38 t/s (без MTP)
Поддержка tool calling	Да (нативная)	Да (через ChatML)	Да (специфичная)

Сравнение намеренно кривое: Qwen2.5 32B в квантизации Q4 — основной конкурент по охвату. Но Ornith выигрывает в скорости генерации кода при включённом MTP, особенно когда нужно вызывать несколько инструментов подряд. Например, при рефакторинге: модель может сама запустить линтер, прочитать вывод, исправить код и запустить тесты — и всё это в одном потоке без «зависаний».

Агентное программирование: где MTP перестаёт быть игрушкой

Я тестировал Ornith 35B FP8 на задаче, которая обычно ломает локальные модели: автоматическое исправление багов в многофайловом Python-проекте. Сценарий: даём модели ошибку из трейса, просим найти файл, изменить код, запустить pytest и вернуть результат. Без MTP модель на третьем шаге забывала, что она уже открыла файл. С MTP — отработала весь пайплайн за 12 секунд на RTX 3090. Ключевой момент: MTP не просто ускоряет генерацию, он сохраняет «внутренний монолог» — последовательность вызовов инструментов, которая не сбрасывается между токенами. Это как если бы у ассистента была краткосрочная память на 10 последних действий, а не на 10 последних слов.

Важно: в LMStudio версия MTP, как мы выяснили ранее, убивает качество на некоторых моделях. Но Ornith — исключение: её архитектура изначально заточена под MTP, поэтому деградации нет. Проверял на бенчмарке HumanEvalPack — падение всего на 1.2% по сравнению с чистой inferencе.

Как собрать и запустить: меньше танцев с бубном, чем кажется

Для запуска Ornith 35B FP8 вам понадобится видеокарта с 24+ ГБ VRAM — RTX 4090, A5000, 3090 (с небольшим оверхедом). Можно использовать обычный llama.cpp с поддержкой MTP. Формат — GGUF. Я не буду копировать сюда весь мануал — по настройке агентного режима уже есть подробный гайд, но принцип тот же. Главное — не забудьте флаг --mtp в llama-server, иначе получите обычную медленную модель.

# Пример запуска с MTP и tool calling
./llama-server \
  -m Ornith-1.0-35B-FP8.gguf \
  --mtp \
  --num-gpu-layers 99 \
  --ctx-size 32768 \
  --chat-template ornith

💡

Совет: для максимальной производительности используйте версию с FP8, а не Q4. Ornith плохо дружит с низкобитными квантизациями — теряет в точности генерации JSON для tool calling.

Кому это реально нужно (а кому — нет)

Ornith 35B FP8 — не для всех. Если вы пишете простые скрипты на Python, вам хватит Qwen2.5-7B. Если юзаете Cursor — не парьтесь с локальными моделями вообще. Но если вы строите автономного агента для кодинга, который должен работать без интернета, обрабатывать несколько файлов и не терять нить разговора — это лучший кандидат на начало 2026 года. Особенно учитывая, что старшая Ornith 397B MoE может быть избыточной для одиночного разработчика, а 35B — золотая середина.

Из неприятного: модель требует точной настройки промпта для tool calling — стандартные шаблоны из LM Studio не всегда корректно парсят функции. Придётся потратить час-другой на отладку. И ещё — она заметно «тяжелее» того же DeepSeek-Coder V2 16B, который тоже неплох, но уступает в агентных сценариях.

Вердикт без шаблонов

Ornith 35B FP8 — это не «революция» и не «прорыв». Это добротный инструмент, который закрывает конкретную боль: локальный агент для кодинга с реальной многошаговой логикой. Если у вас есть 24+ ГБ VRAM и желание выжать из своей видеокарты максимум — берите. Если вы привыкли к облакам — проходите мимо. А если хотите понять, как работает MTP изнутри, советую заодно глянуть Bird's Nest — там другой подход к памяти, но идеи пересекаются.

P.S. Сейчас, летом 2026, локальные модели догнали облачные по качеству кода, но проигрывают в скорости. Ornith с MTP — один из немногих, кто сокращает этот разрыв. А что будет через полгода — посмотрим. Но пока это лучший вариант для тех, кто не хочет платить OpenAI за каждый чих.

Подписаться на канал

Ornith 35B FP8: локальный монстр кодинга, который не просит интернета

Что под капотом: FP8, MTP и почему это работает

Агентное программирование: где MTP перестаёт быть игрушкой

Как собрать и запустить: меньше танцев с бубном, чем кажется

Кому это реально нужно (а кому — нет)

Вердикт без шаблонов

Подписывайтесь на наш канал!