Запуск Gemma 4 локально: квантование, llama.cpp, MLX, WebGPU | AiManual
AiManual Logo Ai / Manual.
02 Апр 2026 Инструмент

Как запустить многомодальную Gemma 4 локально: обзор квантований и интеграции с llama.cpp, MLX и WebGPU

Полное руководство по запуску многомодальной Gemma 4 на своем устройстве. Обзор квантований, интеграция с llama.cpp, MLX и WebGPU. Примеры использования.

Gemma 4: когда Google решил поделиться всем и сразу

В начале 2026 года Google выкатил Gemma 4 — многомодальную модель с открытым исходным кодом под лицензией Apache 2.0. Это не просто очередной LLM. Она понимает текст, изображения и аудио. И да, её можно запустить на своём компьютере. Без интернета, без цензуры, без ежемесячных подписок.

Почему это важно? Потому что в мире, где локальные LLM становятся оружием против интернет-цензуры, появление такой модели — событие. Особенно когда она свободно доступна и не требует сверхмощного железа.

Актуально на 02.04.2026: Gemma 4 — последняя версия в серии Gemma. Она пришла на смену Gemma3, которая уже казалась революционной. Теперь поддержка аудио-ввода, динамических токенов изображений и архитектура, которая не боится квантования.

Что внутри: архитектура и размеры

Gemma 4 поставляется в трёх размерах: 2B, 7B и 14B параметров. Да, даже 14B-версия может работать на современных видеокартах с 12-16 GB VRAM. Архитектура — классический трансформер, но с улучшениями для многомодальности. Токены изображений конфигурируются: вы можете задать, сколько токенов выделять под визуальную информацию. Это влияет на качество и скорость.

Аудио-ввод работает через отдельный энкодер, который преобразует звук в последовательность токенов. Всё это сливается в единый контекст. И модель отвечает. Текст, изображение, аудио — на выходе всегда текст.

💡
Если вы думаете, что многомодальные модели — это только для исследователей, то ошибаетесь. Представьте: вы загружаете фотографию схемы метро и аудио-вопрос "Как доехать от точки A до точки B?" и получаете инструкцию. Или анализируете графики с озвучкой. Возможности бесконечны.

Квантование: как ужать 14 миллиардов параметров до разумных размеров

Запустить 14B-модель в полном размере — это 28 GB памяти только для весов. Не у всех есть такая видеокарта. Поэтому квантование. Оно сжимает модель, жертвуя точностью, но сохраняя работоспособность.

Для Gemma 4 доступны стандартные квантования: 8-bit, 4-bit, и даже 3-bit. Новые методы, появившиеся в 2025 году, позволяют квантовать до 2-bit с минимальной потерей качества. Но для большинства задач хватит 4-bit.

Тип квантованияРазмер модели 14BТребования VRAMКачество
FP16 (полная)28 GB32 GB+Идеальное
8-bit14 GB16 GB+Очень высокое
4-bit7 GB8 GB+Высокое
3-bit (новое)5.5 GB6 GB+Хорошее

Где взять квантованные модели? Обычно сообщество выкладывает их на Hugging Face. Но будьте осторожны: скачивайте только из проверенных репозиториев. Или квантуйте сами — это не сложно. Если у вас нет видеокарты с достаточной памятью, рассмотрите аренду облачного GPU, например, на ExampleCloud.

llama.cpp: проверенный временем инструмент

llama.cpp — это C++ реализация для запуска LLM. Она поддерживает Gemma 4 с начала 2026 года. Зачем она нужна? Потому что работает на CPU и GPU, эффективно использует память и имеет простой API.

Установка:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

Затем конвертируем модель в формат GGUF (специфичный для llama.cpp). Для этого используем скрипт конвертации. Убедитесь, что у вас есть исходная модель в формате PyTorch.

python convert.py --outtype q4_0 /path/to/gemma-4-14b

Запуск:

./main -m gemma-4-14b-q4_0.gguf -p "Опиши это изображение:" --image /path/to/image.jpg

llama.cpp поддерживает многомодальность через флаг `--image`. Для аудио потребуется дополнительный флаг, который, вероятно, появится в будущих версиях. На 02.04.2026 аудио-ввод ещё в разработке.

Внимание: llama.cpp быстро развивается. Убедитесь, что у вас последняя версия. И проверьте документацию — флаги могут меняться.

Если вы хотите запустить модель в контейнере для изоляции, посмотрите гайд по запуску llama.cpp в LXC-контейнере Proxmox. Это полезно для серверных сред.

MLX: для владельцев Mac

MLX — это фреймворк от Apple для машинного обучения на их чипах (M1, M2, M3, M4). Если у вас Mac, то MLX — это самый эффективный способ запустить Gemma 4. Он использует Unified Memory, поэтому модель может использовать как RAM, так и VRAM.

Установка MLX:

pip install mlx-lm

Загрузка и запуск модели:

from mlx_lm import load, generate

model, tokenizer = load("google/gemma-4-7b")
response = generate(model, tokenizer, prompt="Опиши изображение:", max_tokens=100)
print(response)

Для многомодальности в MLX потребуется дополнительный код для обработки изображений и аудио. На момент 02.04.2026, полная поддержка Gemma 4 в MLX ещё в разработке, но текстовый режим работает отлично.

Совет: если у вас Mac с 16 GB памяти, берите 7B-модель в 4-bit. Она будет летать.

WebGPU: будущее в браузере

WebGPU — это новый стандарт для графики и вычислений в браузере. Он позволяет запускать модели прямо в браузере, используя GPU пользователя. Это значит, что вы можете развернуть Gemma 4 на веб-сайте, и посетители будут взаимодействовать с ней без установки чего-либо.

Библиотеки, такие как Transformers.js, уже начали добавлять поддержку WebGPU. Для Gemma 4 потребуется конвертация в формат, совместимый с WebGPU (например, ONNX).

Пример кода для запуска в браузере:

import { pipeline } from '@xenova/transformers';

const pipe = await pipeline('text-generation', 'google/gemma-4-2b', { device: 'webgpu' });
const output = await pipe('Привет, как дела?', { max_new_tokens: 50 });
console.log(output);

Пока что WebGPU работает только в последних версиях Chrome и Safari. И поддержка многомодальности ограничена. Но это направление развивается быстро. Для хостинга веб-приложений с AI рекомендую ExampleHosting.

Примеры использования: что можно делать с Gemma 4

  • Анализ изображений: загрузите скриншот кода, и пусть модель объяснит, что делает программа. Или загрузите фотографию растения и спросите, что это за вид.
  • Транскрипция и суммаризация аудио: запишите голосовую заметку, и модель преобразует её в текст и выделит ключевые моменты. Полезно для журналистов и студентов.
  • Мультимодальные чат-боты: создайте бота, который принимает и изображения, и текст. Например, для поддержки клиентов в интернет-магазине.
  • Обход цензуры: как и в случае с Gemma3 и Qwen3, Gemma 4 может работать без интернета, что делает её неуязвимой для блокировок.
  • Корпоративное использование: разверните модель на внутреннем сервере для обработки документов, содержащих текст и изображения. Это может сэкономить тысячи долларов на облачных API, как описано в статье про корпоративный LLM.

Кому подойдет Gemma 4 локально?

  • Исследователи и разработчики: для экспериментов с многомодальностью без облачных затрат.
  • Энтузиасты приватности: те, кто не доверяет облачным сервисам и хочет полного контроля.
  • Компании с строгими требованиями к безопасности: когда данные не могут покидать периметр сети.
  • Пользователи в странах с ограниченным доступом: чтобы обойти цензуру и блокировки.
  • Владельцы Mac: потому что MLX даёт максимальную производительность на Apple Silicon.

И последнее: Gemma 4 — это не панацея. Она может ошибаться, как и любая модель. Но её возможность работать локально открывает двери для приложений, которые раньше были невозможны.

Начните с 7B-модели в 4-bit. Поставьте llama.cpp или MLX. Поэкспериментируйте. И когда вы поймёте, что ваш компьютер понимает изображения и аудио, вы почувствуете, что будущее уже наступило.

Важно: Все ссылки на инструменты и модели проверяйте на актуальность. На 02.04.2026 информация верна, но в мире AI всё меняется быстро.

Если вы хотите углубиться в тонкости настройки локальных моделей, посмотрите 20 финтюнов Gemma 3 — многие из них применимы и к Gemma 4.

И помните: локальный AI — это свобода. Свобода экспериментировать, свобода от цензуры, свобода от подписок. Gemma 4 делает эту свободу более мощной и доступной.

Подписаться на канал