15 миллиардов параметров для зрения и разума: что скрывает Phi-4

В марте 2026 года Microsoft тихо выкатила обновление для своей серии Phi — мультимодальную модель Phi-4-Reasoning-Vision-15B. Типа «тихо». На самом деле в исследовательских кругах это вызвало легкий шок: 15 миллиардов параметров, поддержка изображений с разрешением до 3600 токенов, архитектура, заточенная под цепочки рассуждений. И все это в размере, который теоретически должен поместиться в 16 ГБ оперативной памяти.

Но теория — это одно. Практика — когда пытаешься запустить эту штуку на своем компьютере и понимаешь, что половина гайдов в интернете врет про производительность. Опять.

💡

Phi-4-Reasoning-Vision-15B построена на кодировщике изображений SigLIP-2, который Microsoft серьезно доработала для длинных контекстов. Это не просто «склейка» текста и картинки — модель училась рассуждать шаг за шагом (CoT) над мультимодальными данными. В GGUF её конвертировали только к началу 2026 года.

1 Где взять GGUF и как не скачать фейк

Официальные веса от Microsoft лежат в Hugging Face Hub. Но вам нужен GGUF — квантованный формат для llama.cpp. Тут главный источник на март 2026 — сообщество TheBloke. Он уже выложил несколько вариантов квантования.

Внимание: как и в истории с Qwen3-VL-8B, скачивайте файлы только с проверенных страниц. В сети уже появились поддельные GGUF-файлы с «оптимизированной» производительностью, которая достигается за счет снижения точности.

Актуальные ссылки (на 12.03.2026):

Q4_K_M (~9.2 ГБ): Баланс качества и размера. Для большинства задач.
IQ3_XS (~6.8 ГБ): Новый формат квантования 2026 года. Качество близко к Q4, но экономит память. Требует свежей сборки llama.cpp.
Q6_K (~13.5 ГБ): Максимальное качество для серьезной работы.

Скачивайте через wget или из браузера. Убедитесь, что у вас llama.cpp версии не ниже b3500 (вышла в январе 2026), иначе поддержка SigLIP-2 будет кривой.

2 Команда запуска: флаги, которые решают все

Вот тут начинается магия и боль. Базовая команда для анализа изображения:

./main -m phi-4-reasoning-vision-15b-Q4_K_M.gguf \
  --mmproj mmproj-model-f16.gguf \
  --image path/to/your/image.jpg \
  -p "Опиши, что происходит на этом изображении, шаг за шагом." \
  -n 512

Ключевые моменты:

--mmproj: Файл проекции для мультимодальности. Без него модель будет слепой. Его нужно скачать отдельно, обычно он идет в комплекте с GGUF на странице TheBloke.
-n: Количество генерируемых токенов. Для рассуждений лучше ставить побольше, но не превышайте контекст модели (3600).
НИКОГДА не используйте просто -ngl 0 для тестов на CPU. Это старая, но живая ловушка. Флаг лишь указывает, сколько слоев отправить на GPU. Ноль — значит ни одного. Но если у вас есть видеокарта, часть вычислений все равно может утекать на нее через CUDA/Vulkan.

Для чистого CPU-теста в Linux нужно сначала отключить возможность использования GPU. Самый надежный способ — собрать llama.cpp без поддержки CUDA и Metal. Или использовать CUDA_VISIBLE_DEVICES="" перед командой.

Новый флаг в llama.cpp (с версии b3490): --no-gpu. Он явно запрещает использовать любые GPU-бэкенды. Но работает не всегда стабильно. Проверяйте загрузку процессора в htop.

Тесты производительности: холодные цифры марта 2026

Я прогнал модель на трех конфигурациях. Система: Ubuntu 24.04 LTS, 64 ГБ DDR5, процессор i9-14900K, видеокарта RTX 4090. Llama.cpp собрана из мастера (коммит от 10.03.2026).

Конфигурация	Квантование	Скорость (токен/с)	Загрузка ОЗУ/VRAM
Чистый CPU (24 потока)	Q4_K_M	4.7	~11 ГБ ОЗУ
GPU (RTX 4090, -ngl 99)	Q4_K_M	34.2	~5 ГБ ОЗУ + 8 ГБ VRAM
Гибрид (-ngl 40)	IQ3_XS	22.1	~7 ГБ ОЗУ + 6 ГБ VRAM

Цифры говорят сами за себя. На чистом CPU модель думает медленно, но работает. Это вариант для разовых проверок или если у вас нет нормальной видеокарты. 4.7 токена в секунду — это примерно минута на осмысленный ответ.

RTX 4090 раскрывает потенциал. 34 токена в секунду — уже интерактивная скорость. Загрузка видеопамяти умеренная, потому что кодировщик изображений SigLIP-2 все равно работает на CPU (пока). Это известная особенность архитектуры.

Гибридный режим с новым квантованием IQ3_XS — интересный компромисс. Он экономит память и дает приемлемую скорость на среднем железе.

С чем сравнить? Альтернативы в 2026 году

Phi-4-Reasoning-Vision-15B не единственная мультимодальная модель в GGUF. Вот ее главные конкуренты на март 2026:

Qwen3-VL-8B: Вдвое меньше параметров, но и быстрее. Качество рассуждений слабее. Выбор, если нужна просто описательная модель.
Llama 4 16x17B: Гигант из нашего прошлого обзора. Качество выше, но требует минимум 48 ГБ VRAM даже в квантованном виде. Не для смертных.
Gemma3-Vision-12B: От Google, вышла в феврале 2026. Быстрая, но страдает в логических задачах. Еще не все квантования доступны.

Сила Phi-4 — именно в «reasoning». Она не просто описывает картинку, а строит логические цепочки. Дайте ей изображение графика и спросите о трендах — получите пошаговый анализ. Это ее ниша.

Кому эта модель сломает жизнь, а кому — поможет

Phi-4-Reasoning-Vision-15B в llama.cpp — инструмент не для всех.

Берите, если:

У вас есть RTX 4070 Ti (12 ГБ) или лучше, и вам нужен локальный «мозг» для анализа диаграмм, скриншотов кода, технических схем.
Вы исследователь и хотите потестировать цепочки рассуждений без облачных API.
У вас мощный CPU (i7/Ryzen 7 нового поколения) и 32+ ГБ ОЗУ, а видеокарты нет. Готовы ждать ответы по 1-2 минуты.

Обходите стороной, если:

У вас 16 ГБ ОЗУ и старая видеокарта. Даже квантованная модель сожрет всю память и будет тормозить невыносимо.
Вам нужна просто «подпись к фото». Для этого хватит и более легких текстовых моделей с простой интеграцией зрения.
Вы ненавидите возиться с флагами и сборками. Тут придется.

Главный неочевидный совет: если вы планируете использовать модель в продакшене, не завязывайтесь только на llama.cpp. В 2026 году vLLM и другие бэкенды уже догнали по поддержке мультимодальности и дают лучшую пропускную способность. Llama.cpp — для локального прототипирования и тестов.

Прогноз: к концу 2026 года мы увидим оптимизированные GGUF-версии, где кодировщик изображений тоже можно будет частично загружать на GPU. Скорость на CPU может вырасти в 1.5-2 раза. Но пока — считайте с текущими цифрами. И проверяйте, что у вас действительно работает на CPU, если хотите реальных тестов.

Подписаться на канал

Phi-4-Reasoning-Vision в GGUF: как запустить мультимодальный рассудок Microsoft на своем железе и не обжечься