Китайский пингвин вышел на лед

Март 2026 года. Пока одни доращивают 100-миллиардные мультимодальные монстры, Tencent тихо выкатывает Penguin-VL — две компактные Vision-Language модели на 8 и 2 миллиарда параметров. Их фишка не в размере, а в подходе: vision-энкодер здесь не отдельная нейросеть, а адаптированный текстовый LLM. Звучит как ересь? Но это работает.

Актуальность на 07.03.2026: в основе vision-энкодера лежит Qwen3-0.6B — последняя доступная компактная языковая модель от Alibaba на эту дату. Архитектура Penguin-VL стабильна, веса доступны на HuggingFace.

Зачем ломать работающий энкодер?

Классические VLM вроде LLaVA или MiniGPT-4 тащат за собой два разных мозга: один для картинок (CLIP, ViT), другой для текста. Их потом долго и нудно «связывают» проекционными слоями. Penguin-VL поступает радикально: берет легкий Qwen3-0.6B, дообучает его начальные слои на изображениях и получает унифицированный энкодер. Текст и изображения сходятся в одной архитектуре с самого начала.

💡

LLM-based vision encoder — это не просто экономия параметров. Модель изначально учится представлять визуальную и текстовую информацию в одном скрытом пространстве, что снижает "трение" на стыке модальностей.

2D-RoPE и TRA: где тут магия?

Обработка изображений — это всегда про позиции пикселей. Традиционное 1D ротационное позиционное кодирование (RoPE) для текста здесь не катит. Penguin-VL использует 2D-RoPE, которое кодирует координаты по ширине и высоте отдельно. Это дает модели четкое понимание пространственных отношений в кадре.

А для видео? Тут включается Temporal Redundancy-Aware (TRA) компрессия. Вместо того чтобы грузить сеть всеми кадрами подряд, модель выявляет ключевые, где сцена меняется. Остальные сжимаются или пропускаются. На практике это значит, что Penguin-VL может обрабатывать длинные видео, не требуя GPU размером с холодильник.

Цифры, которые имеют значение

Заявленная производительность на стандартных бенчмарках (MMBench, SEED-Bench) для 8B-версии находится на уровне LLaVA-Next-13B, а иногда и превосходит ее. 2B-модель, при своих скромных размерах, бьет многих 7B конкурентов в задачах на описания изображений и простые QA.

Модель	Параметры	Ключевая фича	MMBench (2026)
Penguin-VL-8B	8B	LLM-based vision encoder	68.5
Penguin-VL-2B	2B	Ultra-compact	61.2
LLaVA-Next-13B	13B	High-res, SOTA	69.1
MiniGPT-4-v2-7B	7B	Balanced	64.8

Запустить локально? Легко

Вот где начинается веселье. Модель в 2 миллиарда параметров комфортно чувствует себя на ноутбуке с RTX 4060 (8 ГБ VRAM) или даже на MacBook с M3 Pro. 8B-версия просит уже 16-20 ГБ видеопамяти, что делает ее отличным кандидатом для домашнего сервера. Если вы собираете такой, наш гайд по минимальным требованиям VRAM будет кстати.

Для инференса Tencent рекомендует свой собственный фреймворк, но модель в формате safetensors отлично работает с vLLM или SGLang. Если вы фанат оптимизации под Apple Silicon, присмотритесь к vLLM-MLX. А для промышленного развертывания в Kubernetes есть архитектура Nova AI как готовый пример.

Практический пример: запуск 2B модели через Transformers. Никакого экзотического кода, просто загрузка с HuggingFace и стандартный конвейер. Модель понимает промпты на английском и китайском.

Кому смотреть в сторону Penguin-VL?

Разработчики встраиваемых AI-решений: 2B модель — это не шутка. Она помещается на edge-устройствах и может работать офлайн.
Исследователи с ограниченным бюджетом: Не у всех есть кластер из H100. Архитектура с общим энкодером быстрее сходится и требует меньше данных для дообучения.
Энтузиасты локальных моделей: Тем, кто уже запускал GLM-5 или искал замену Claude Code, Penguin-VL открывает мультимодальность без облаков.
Стартапы, работающие с видео: TRA-компрессия — это реальная экономия на инференсе для видеоаналитики.

А где подводные камни?

Их немного, но они есть. Документация от Tencent пока только на китайском и английском, русскоязычное комьюнити только формируется. Поддержка инструментов вроде Ollama или LM Studio появилась недавно, могут быть баги. И да, это не GPT-4V — в сложных логических рассуждениях по изображению модель может споткнуться.

💡

Если ваша основная задача — анализ кода или текста, а не изображений, выбор локальной LLM стоит делать по другим критериям. Смотрите наш полный бенчмарк 100+ моделей для инженерных задач.

И что в итоге?

Penguin-VL — это не очередной клон, а интересный архитектурный эксперимент, который оказался жизнеспособным. Модель доказывает, что для хорошего мультимодального понимания не обязательно склеивать два разнородных энкодера. Можно взять один и научить его всему.

К концу 2026 года, я ставлю на то, что подход с LLM-based vision encoder подхватят и другие. А пока — у вас есть шанс запустить одну из самых необычных локальных VLM на своем железе. Просто скачайте веса с HuggingFace и проверьте, как пингвин плавает в вашем датасете.

Подписаться на канал

Penguin-VL от Tencent: архитектура, производительность и запуск локальной VLM 8B/2B