Gemma 4: когда Google решил поделиться всем и сразу
В начале 2026 года Google выкатил Gemma 4 — многомодальную модель с открытым исходным кодом под лицензией Apache 2.0. Это не просто очередной LLM. Она понимает текст, изображения и аудио. И да, её можно запустить на своём компьютере. Без интернета, без цензуры, без ежемесячных подписок.
Почему это важно? Потому что в мире, где локальные LLM становятся оружием против интернет-цензуры, появление такой модели — событие. Особенно когда она свободно доступна и не требует сверхмощного железа.
Актуально на 02.04.2026: Gemma 4 — последняя версия в серии Gemma. Она пришла на смену Gemma3, которая уже казалась революционной. Теперь поддержка аудио-ввода, динамических токенов изображений и архитектура, которая не боится квантования.
Что внутри: архитектура и размеры
Gemma 4 поставляется в трёх размерах: 2B, 7B и 14B параметров. Да, даже 14B-версия может работать на современных видеокартах с 12-16 GB VRAM. Архитектура — классический трансформер, но с улучшениями для многомодальности. Токены изображений конфигурируются: вы можете задать, сколько токенов выделять под визуальную информацию. Это влияет на качество и скорость.
Аудио-ввод работает через отдельный энкодер, который преобразует звук в последовательность токенов. Всё это сливается в единый контекст. И модель отвечает. Текст, изображение, аудио — на выходе всегда текст.
Квантование: как ужать 14 миллиардов параметров до разумных размеров
Запустить 14B-модель в полном размере — это 28 GB памяти только для весов. Не у всех есть такая видеокарта. Поэтому квантование. Оно сжимает модель, жертвуя точностью, но сохраняя работоспособность.
Для Gemma 4 доступны стандартные квантования: 8-bit, 4-bit, и даже 3-bit. Новые методы, появившиеся в 2025 году, позволяют квантовать до 2-bit с минимальной потерей качества. Но для большинства задач хватит 4-bit.
| Тип квантования | Размер модели 14B | Требования VRAM | Качество |
|---|---|---|---|
| FP16 (полная) | 28 GB | 32 GB+ | Идеальное |
| 8-bit | 14 GB | 16 GB+ | Очень высокое |
| 4-bit | 7 GB | 8 GB+ | Высокое |
| 3-bit (новое) | 5.5 GB | 6 GB+ | Хорошее |
Где взять квантованные модели? Обычно сообщество выкладывает их на Hugging Face. Но будьте осторожны: скачивайте только из проверенных репозиториев. Или квантуйте сами — это не сложно. Если у вас нет видеокарты с достаточной памятью, рассмотрите аренду облачного GPU, например, на ExampleCloud.
llama.cpp: проверенный временем инструмент
llama.cpp — это C++ реализация для запуска LLM. Она поддерживает Gemma 4 с начала 2026 года. Зачем она нужна? Потому что работает на CPU и GPU, эффективно использует память и имеет простой API.
Установка:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4
Затем конвертируем модель в формат GGUF (специфичный для llama.cpp). Для этого используем скрипт конвертации. Убедитесь, что у вас есть исходная модель в формате PyTorch.
python convert.py --outtype q4_0 /path/to/gemma-4-14b
Запуск:
./main -m gemma-4-14b-q4_0.gguf -p "Опиши это изображение:" --image /path/to/image.jpg
llama.cpp поддерживает многомодальность через флаг `--image`. Для аудио потребуется дополнительный флаг, который, вероятно, появится в будущих версиях. На 02.04.2026 аудио-ввод ещё в разработке.
Внимание: llama.cpp быстро развивается. Убедитесь, что у вас последняя версия. И проверьте документацию — флаги могут меняться.
Если вы хотите запустить модель в контейнере для изоляции, посмотрите гайд по запуску llama.cpp в LXC-контейнере Proxmox. Это полезно для серверных сред.
MLX: для владельцев Mac
MLX — это фреймворк от Apple для машинного обучения на их чипах (M1, M2, M3, M4). Если у вас Mac, то MLX — это самый эффективный способ запустить Gemma 4. Он использует Unified Memory, поэтому модель может использовать как RAM, так и VRAM.
Установка MLX:
pip install mlx-lm
Загрузка и запуск модели:
from mlx_lm import load, generate
model, tokenizer = load("google/gemma-4-7b")
response = generate(model, tokenizer, prompt="Опиши изображение:", max_tokens=100)
print(response)
Для многомодальности в MLX потребуется дополнительный код для обработки изображений и аудио. На момент 02.04.2026, полная поддержка Gemma 4 в MLX ещё в разработке, но текстовый режим работает отлично.
Совет: если у вас Mac с 16 GB памяти, берите 7B-модель в 4-bit. Она будет летать.
WebGPU: будущее в браузере
WebGPU — это новый стандарт для графики и вычислений в браузере. Он позволяет запускать модели прямо в браузере, используя GPU пользователя. Это значит, что вы можете развернуть Gemma 4 на веб-сайте, и посетители будут взаимодействовать с ней без установки чего-либо.
Библиотеки, такие как Transformers.js, уже начали добавлять поддержку WebGPU. Для Gemma 4 потребуется конвертация в формат, совместимый с WebGPU (например, ONNX).
Пример кода для запуска в браузере:
import { pipeline } from '@xenova/transformers';
const pipe = await pipeline('text-generation', 'google/gemma-4-2b', { device: 'webgpu' });
const output = await pipe('Привет, как дела?', { max_new_tokens: 50 });
console.log(output);
Пока что WebGPU работает только в последних версиях Chrome и Safari. И поддержка многомодальности ограничена. Но это направление развивается быстро. Для хостинга веб-приложений с AI рекомендую ExampleHosting.
Примеры использования: что можно делать с Gemma 4
- Анализ изображений: загрузите скриншот кода, и пусть модель объяснит, что делает программа. Или загрузите фотографию растения и спросите, что это за вид.
- Транскрипция и суммаризация аудио: запишите голосовую заметку, и модель преобразует её в текст и выделит ключевые моменты. Полезно для журналистов и студентов.
- Мультимодальные чат-боты: создайте бота, который принимает и изображения, и текст. Например, для поддержки клиентов в интернет-магазине.
- Обход цензуры: как и в случае с Gemma3 и Qwen3, Gemma 4 может работать без интернета, что делает её неуязвимой для блокировок.
- Корпоративное использование: разверните модель на внутреннем сервере для обработки документов, содержащих текст и изображения. Это может сэкономить тысячи долларов на облачных API, как описано в статье про корпоративный LLM.
Кому подойдет Gemma 4 локально?
- Исследователи и разработчики: для экспериментов с многомодальностью без облачных затрат.
- Энтузиасты приватности: те, кто не доверяет облачным сервисам и хочет полного контроля.
- Компании с строгими требованиями к безопасности: когда данные не могут покидать периметр сети.
- Пользователи в странах с ограниченным доступом: чтобы обойти цензуру и блокировки.
- Владельцы Mac: потому что MLX даёт максимальную производительность на Apple Silicon.
И последнее: Gemma 4 — это не панацея. Она может ошибаться, как и любая модель. Но её возможность работать локально открывает двери для приложений, которые раньше были невозможны.
Начните с 7B-модели в 4-bit. Поставьте llama.cpp или MLX. Поэкспериментируйте. И когда вы поймёте, что ваш компьютер понимает изображения и аудио, вы почувствуете, что будущее уже наступило.
Важно: Все ссылки на инструменты и модели проверяйте на актуальность. На 02.04.2026 информация верна, но в мире AI всё меняется быстро.
Если вы хотите углубиться в тонкости настройки локальных моделей, посмотрите 20 финтюнов Gemma 3 — многие из них применимы и к Gemma 4.
И помните: локальный AI — это свобода. Свобода экспериментировать, свобода от цензуры, свобода от подписок. Gemma 4 делает эту свободу более мощной и доступной.