Китайский пингвин вышел на лед
Март 2026 года. Пока одни доращивают 100-миллиардные мультимодальные монстры, Tencent тихо выкатывает Penguin-VL — две компактные Vision-Language модели на 8 и 2 миллиарда параметров. Их фишка не в размере, а в подходе: vision-энкодер здесь не отдельная нейросеть, а адаптированный текстовый LLM. Звучит как ересь? Но это работает.
Актуальность на 07.03.2026: в основе vision-энкодера лежит Qwen3-0.6B — последняя доступная компактная языковая модель от Alibaba на эту дату. Архитектура Penguin-VL стабильна, веса доступны на HuggingFace.
Зачем ломать работающий энкодер?
Классические VLM вроде LLaVA или MiniGPT-4 тащат за собой два разных мозга: один для картинок (CLIP, ViT), другой для текста. Их потом долго и нудно «связывают» проекционными слоями. Penguin-VL поступает радикально: берет легкий Qwen3-0.6B, дообучает его начальные слои на изображениях и получает унифицированный энкодер. Текст и изображения сходятся в одной архитектуре с самого начала.
2D-RoPE и TRA: где тут магия?
Обработка изображений — это всегда про позиции пикселей. Традиционное 1D ротационное позиционное кодирование (RoPE) для текста здесь не катит. Penguin-VL использует 2D-RoPE, которое кодирует координаты по ширине и высоте отдельно. Это дает модели четкое понимание пространственных отношений в кадре.
А для видео? Тут включается Temporal Redundancy-Aware (TRA) компрессия. Вместо того чтобы грузить сеть всеми кадрами подряд, модель выявляет ключевые, где сцена меняется. Остальные сжимаются или пропускаются. На практике это значит, что Penguin-VL может обрабатывать длинные видео, не требуя GPU размером с холодильник.
Цифры, которые имеют значение
Заявленная производительность на стандартных бенчмарках (MMBench, SEED-Bench) для 8B-версии находится на уровне LLaVA-Next-13B, а иногда и превосходит ее. 2B-модель, при своих скромных размерах, бьет многих 7B конкурентов в задачах на описания изображений и простые QA.
| Модель | Параметры | Ключевая фича | MMBench (2026) |
|---|---|---|---|
| Penguin-VL-8B | 8B | LLM-based vision encoder | 68.5 |
| Penguin-VL-2B | 2B | Ultra-compact | 61.2 |
| LLaVA-Next-13B | 13B | High-res, SOTA | 69.1 |
| MiniGPT-4-v2-7B | 7B | Balanced | 64.8 |
Запустить локально? Легко
Вот где начинается веселье. Модель в 2 миллиарда параметров комфортно чувствует себя на ноутбуке с RTX 4060 (8 ГБ VRAM) или даже на MacBook с M3 Pro. 8B-версия просит уже 16-20 ГБ видеопамяти, что делает ее отличным кандидатом для домашнего сервера. Если вы собираете такой, наш гайд по минимальным требованиям VRAM будет кстати.
Для инференса Tencent рекомендует свой собственный фреймворк, но модель в формате safetensors отлично работает с vLLM или SGLang. Если вы фанат оптимизации под Apple Silicon, присмотритесь к vLLM-MLX. А для промышленного развертывания в Kubernetes есть архитектура Nova AI как готовый пример.
Практический пример: запуск 2B модели через Transformers. Никакого экзотического кода, просто загрузка с HuggingFace и стандартный конвейер. Модель понимает промпты на английском и китайском.
Кому смотреть в сторону Penguin-VL?
- Разработчики встраиваемых AI-решений: 2B модель — это не шутка. Она помещается на edge-устройствах и может работать офлайн.
- Исследователи с ограниченным бюджетом: Не у всех есть кластер из H100. Архитектура с общим энкодером быстрее сходится и требует меньше данных для дообучения.
- Энтузиасты локальных моделей: Тем, кто уже запускал GLM-5 или искал замену Claude Code, Penguin-VL открывает мультимодальность без облаков.
- Стартапы, работающие с видео: TRA-компрессия — это реальная экономия на инференсе для видеоаналитики.
А где подводные камни?
Их немного, но они есть. Документация от Tencent пока только на китайском и английском, русскоязычное комьюнити только формируется. Поддержка инструментов вроде Ollama или LM Studio появилась недавно, могут быть баги. И да, это не GPT-4V — в сложных логических рассуждениях по изображению модель может споткнуться.
И что в итоге?
Penguin-VL — это не очередной клон, а интересный архитектурный эксперимент, который оказался жизнеспособным. Модель доказывает, что для хорошего мультимодального понимания не обязательно склеивать два разнородных энкодера. Можно взять один и научить его всему.
К концу 2026 года, я ставлю на то, что подход с LLM-based vision encoder подхватят и другие. А пока — у вас есть шанс запустить одну из самых необычных локальных VLM на своем железе. Просто скачайте веса с HuggingFace и проверьте, как пингвин плавает в вашем датасете.