15 миллиардов параметров для зрения и разума: что скрывает Phi-4
В марте 2026 года Microsoft тихо выкатила обновление для своей серии Phi — мультимодальную модель Phi-4-Reasoning-Vision-15B. Типа «тихо». На самом деле в исследовательских кругах это вызвало легкий шок: 15 миллиардов параметров, поддержка изображений с разрешением до 3600 токенов, архитектура, заточенная под цепочки рассуждений. И все это в размере, который теоретически должен поместиться в 16 ГБ оперативной памяти.
Но теория — это одно. Практика — когда пытаешься запустить эту штуку на своем компьютере и понимаешь, что половина гайдов в интернете врет про производительность. Опять.
1 Где взять GGUF и как не скачать фейк
Официальные веса от Microsoft лежат в Hugging Face Hub. Но вам нужен GGUF — квантованный формат для llama.cpp. Тут главный источник на март 2026 — сообщество TheBloke. Он уже выложил несколько вариантов квантования.
Внимание: как и в истории с Qwen3-VL-8B, скачивайте файлы только с проверенных страниц. В сети уже появились поддельные GGUF-файлы с «оптимизированной» производительностью, которая достигается за счет снижения точности.
Актуальные ссылки (на 12.03.2026):
- Q4_K_M (~9.2 ГБ): Баланс качества и размера. Для большинства задач.
- IQ3_XS (~6.8 ГБ): Новый формат квантования 2026 года. Качество близко к Q4, но экономит память. Требует свежей сборки llama.cpp.
- Q6_K (~13.5 ГБ): Максимальное качество для серьезной работы.
Скачивайте через wget или из браузера. Убедитесь, что у вас llama.cpp версии не ниже b3500 (вышла в январе 2026), иначе поддержка SigLIP-2 будет кривой.
2 Команда запуска: флаги, которые решают все
Вот тут начинается магия и боль. Базовая команда для анализа изображения:
./main -m phi-4-reasoning-vision-15b-Q4_K_M.gguf \
--mmproj mmproj-model-f16.gguf \
--image path/to/your/image.jpg \
-p "Опиши, что происходит на этом изображении, шаг за шагом." \
-n 512
Ключевые моменты:
--mmproj: Файл проекции для мультимодальности. Без него модель будет слепой. Его нужно скачать отдельно, обычно он идет в комплекте с GGUF на странице TheBloke.-n: Количество генерируемых токенов. Для рассуждений лучше ставить побольше, но не превышайте контекст модели (3600).- НИКОГДА не используйте просто
-ngl 0для тестов на CPU. Это старая, но живая ловушка. Флаг лишь указывает, сколько слоев отправить на GPU. Ноль — значит ни одного. Но если у вас есть видеокарта, часть вычислений все равно может утекать на нее через CUDA/Vulkan.
Для чистого CPU-теста в Linux нужно сначала отключить возможность использования GPU. Самый надежный способ — собрать llama.cpp без поддержки CUDA и Metal. Или использовать CUDA_VISIBLE_DEVICES="" перед командой.
Новый флаг в llama.cpp (с версии b3490): --no-gpu. Он явно запрещает использовать любые GPU-бэкенды. Но работает не всегда стабильно. Проверяйте загрузку процессора в htop.
Тесты производительности: холодные цифры марта 2026
Я прогнал модель на трех конфигурациях. Система: Ubuntu 24.04 LTS, 64 ГБ DDR5, процессор i9-14900K, видеокарта RTX 4090. Llama.cpp собрана из мастера (коммит от 10.03.2026).
| Конфигурация | Квантование | Скорость (токен/с) | Загрузка ОЗУ/VRAM |
|---|---|---|---|
| Чистый CPU (24 потока) | Q4_K_M | 4.7 | ~11 ГБ ОЗУ |
| GPU (RTX 4090, -ngl 99) | Q4_K_M | 34.2 | ~5 ГБ ОЗУ + 8 ГБ VRAM |
| Гибрид (-ngl 40) | IQ3_XS | 22.1 | ~7 ГБ ОЗУ + 6 ГБ VRAM |
Цифры говорят сами за себя. На чистом CPU модель думает медленно, но работает. Это вариант для разовых проверок или если у вас нет нормальной видеокарты. 4.7 токена в секунду — это примерно минута на осмысленный ответ.
RTX 4090 раскрывает потенциал. 34 токена в секунду — уже интерактивная скорость. Загрузка видеопамяти умеренная, потому что кодировщик изображений SigLIP-2 все равно работает на CPU (пока). Это известная особенность архитектуры.
Гибридный режим с новым квантованием IQ3_XS — интересный компромисс. Он экономит память и дает приемлемую скорость на среднем железе.
С чем сравнить? Альтернативы в 2026 году
Phi-4-Reasoning-Vision-15B не единственная мультимодальная модель в GGUF. Вот ее главные конкуренты на март 2026:
- Qwen3-VL-8B: Вдвое меньше параметров, но и быстрее. Качество рассуждений слабее. Выбор, если нужна просто описательная модель.
- Llama 4 16x17B: Гигант из нашего прошлого обзора. Качество выше, но требует минимум 48 ГБ VRAM даже в квантованном виде. Не для смертных.
- Gemma3-Vision-12B: От Google, вышла в феврале 2026. Быстрая, но страдает в логических задачах. Еще не все квантования доступны.
Сила Phi-4 — именно в «reasoning». Она не просто описывает картинку, а строит логические цепочки. Дайте ей изображение графика и спросите о трендах — получите пошаговый анализ. Это ее ниша.
Кому эта модель сломает жизнь, а кому — поможет
Phi-4-Reasoning-Vision-15B в llama.cpp — инструмент не для всех.
Берите, если:
- У вас есть RTX 4070 Ti (12 ГБ) или лучше, и вам нужен локальный «мозг» для анализа диаграмм, скриншотов кода, технических схем.
- Вы исследователь и хотите потестировать цепочки рассуждений без облачных API.
- У вас мощный CPU (i7/Ryzen 7 нового поколения) и 32+ ГБ ОЗУ, а видеокарты нет. Готовы ждать ответы по 1-2 минуты.
Обходите стороной, если:
- У вас 16 ГБ ОЗУ и старая видеокарта. Даже квантованная модель сожрет всю память и будет тормозить невыносимо.
- Вам нужна просто «подпись к фото». Для этого хватит и более легких текстовых моделей с простой интеграцией зрения.
- Вы ненавидите возиться с флагами и сборками. Тут придется.
Главный неочевидный совет: если вы планируете использовать модель в продакшене, не завязывайтесь только на llama.cpp. В 2026 году vLLM и другие бэкенды уже догнали по поддержке мультимодальности и дают лучшую пропускную способность. Llama.cpp — для локального прототипирования и тестов.
Прогноз: к концу 2026 года мы увидим оптимизированные GGUF-версии, где кодировщик изображений тоже можно будет частично загружать на GPU. Скорость на CPU может вырасти в 1.5-2 раза. Но пока — считайте с текущими цифрами. И проверяйте, что у вас действительно работает на CPU, если хотите реальных тестов.