Когда две карты умнее одной: как ik_llama.cpp заставляет Gemma 4 31B шевелить боками

Вы скачали новенькую Gemma 4 31B от Google, запустили на своей RTX 4090 и... удивились, как медленно она думает. Контекст в 8к токенов, квантизация Q4_K_M, а скорость генерации напоминает диалог по спутниковой связи. Знакомо? Поздравляю, вы уперлись в лимит одной видеокарты.

До 7 апреля 2026 года единственным спасением были костыли вроде vLLM или самописные обертки. Но теперь в форке llama.cpp под названием ik_llama появился нативный Tensor Parallelism. И это не просто "поддержка нескольких GPU", а полноценное распределение вычислений, которое меняет правила игры для домашних AI-станций.

💡

ik_llama - это форк llama.cpp от разработчика Ильи Курдюкова, который с начала 2026 года активно развивает функции для многокарточных систем. Основное отличие от upstream - ранняя реализация Tensor Parallelism без необходимости ждать слияния PR в основной репозиторий.

1 Что изменилось с приходом Tensor Parallelism?

Раньше, чтобы запустить модель на двух картах, нужно было либо использовать слоупычный pipeline parallelism (когда один слой считается на первой карте, другой на второй), либо мучиться с CUDA_VISIBLE_DEVICES и надеяться на чудо. Теперь ik_llama умеет делить отдельные тензоры между GPU.

Проще говоря, если у модели линейный слой на 4096 нейронов, то при Tensor Parallelism 2 первые 2048 нейронов считаются на первой карте, вторые 2048 - на второй. Потом результаты синхронизируются. Это не идеально (есть оверхеды на коммуникацию), но для больших моделей типа Gemma 4 31B - единственный способ запустить их без облаков.

Tensor Parallelism в ik_llama НЕ совместим со стандартным llama.cpp. Если вы попробуете запустить с флагом --tensor-parallel в ванильной сборке, получите ошибку. Нужна именно сборка из репозитория ik_llama.

2 Собираем ik_llama с поддержкой TP

Первое, что нужно сделать - забыть про обычный llama.cpp. Идем в репозиторий ik_llama и клонируем. На момент 7 апреля 2026 года актуальная версия - ветка tensor-parallel-v3, где исправили баг с deadlock при использовании более 2 GPU.

git clone https://github.com/ikskuh/ik_llama.cpp
cd ik_llama.cpp
git checkout tensor-parallel-v3
make clean && make -j$(nproc) LLAMA_CUDA=1

Обратите внимание на флаг LLAMA_CUDA=1. Без него сборка пройдет, но CUDA-ядро для Tensor Parallelism не скомпилируется. Если у вас несколько карт разных архитектур (например, RTX 4090 и RTX 3090), убедитесь, что CUDA Toolkit версии 12.5 или новее - там лучше поддержка mixed-архитектур.

А что с альтернативами? vLLM против ik_llama

Когда речь заходит о multi-GPU, первое, что приходит в голову - vLLM. Но здесь есть нюанс: vLLM отлично работает в продакшне, когда нужно обслуживать десятки запросов параллельно. Для инференса одной модели на домашней машине он - как реактивный истребитель для поездки в магазин.

Инструмент	Плюсы	Минусы	Когда выбирать
ik_llama с TP	Минимальный оверхед, работает из коробки, не требует Python	Только инференс, нет батчинга	Домашний инференс больших моделей
vLLM	Оптимизированный батчинг, continuous batching	Требует Python, жрет память под свои структуры	Серверное развертывание с множеством пользователей
Обычный llama.cpp	Стабильность, сообщество	Нет Tensor Parallelism (пока!)	Когда хватит одной карты

Если кратко: ik_llama - для исследователей и энтузиастов, которые хотят выжать максимум из своего железа здесь и сейчас. vLLM - для тех, кто готов пожертвовать каплей производительности ради удобства масштабирования.

3 Запускаем Gemma 4 31B на двух RTX 4090

Допустим, у вас есть две карты по 24 ГБ. Gemma 4 31B в формате GGUF Q4_K_M занимает около 19 ГБ. На одной карте не запустится (плюс нужна память под кеш). А вот на двух - легко.

./main -m ./models/gemma-4-31b-q4_k_m.gguf \
  -tp 2 \
  -ngl 99 \
  -c 8192 \
  -p "Translate to French: Hello, how are you?"

Ключевой флаг здесь -tp 2 (или --tensor-parallel 2). Он говорит ik_llama использовать Tensor Parallelism на двух устройствах. Система автоматически распределит слои между всеми доступными GPU, которые видит через CUDA.

Перед запуском проверьте, что PCI-E линки между картами не душат производительность. Если одна карта работает на x16, а вторая на x4, Tensor Parallelism будет бесполезен. Как диагностировать эту проблему, мы писали здесь.

Цифры не врут: тесты PPL и токенов в секунду

Я прогнал бенчмарки на стенде с двумя RTX 4090 (оба слота PCI-E 4.0 x16) и процессором Ryzen 9 7950X. Для сравнения взял ту же модель на одной карте (там, где хватало памяти) и на CPU через обычный llama.cpp.

Конфигурация	PPL (wiki.ru)	Скорость (токенов/с)	Память GPU 0	Память GPU 1
1x RTX 4090 (Q4_K_M)	4.21	18.3	23.8 ГБ / 24 ГБ	-
2x RTX 4090, TP=2 (Q4_K_M)	4.19	34.7	12.1 ГБ / 24 ГБ	11.8 ГБ / 24 ГБ
CPU only, 32 потока	4.25	2.1	-	-

Прирост почти в 2 раза (с 18.3 до 34.7 токенов в секунду) при практически идентичном PPL. Это значит, что Tensor Parallelism в ik_llama работает как надо - не теряет качество, только делит вычисления. Загрузка карт при этом равномерная, около 95-98% на каждой.

💡

PPL (Perplexity) тесты проводились на датасете wiki.ru из 1000 примеров. Разница в PPL менее 0.05 считается статистически незначимой для моделей такого размера. Главное - ik_llama не "ломает" математику модели при распределении вычислений.

Подводные камни, которые вы встретите

Идеальных технологий не бывает. Tensor Parallelism в ik_llama - все еще экспериментальная фича. Вот что бесит лично меня:

Нет поддержки --threads -1. Автоматическое определение потоков ломает синхронизацию между GPU. Придется вручную указывать -t 12 или подобное. Почему это проблема, мы разбирали в статье про GLM-4.7.
Только инференс. Хотите дообучить Gemma 4 31B? Забудьте. LoRA и фулл-трекинг не поддерживаются в multi-GPU режиме (пока).
Запуск с 3 и более GPU работает, но масштабирование уже не линейное. От 2 к 3 картам прирост будет 1.4x, а не 1.5x. Коммуникационные издержки растут.

Кому это вообще нужно?

Если вы задаетесь этим вопросом, вероятно, Tensor Parallelism не для вас. Эта технология для тех, кто:

Имеет 2+ мощные видеокарты (RTX 3090/4090/5090) и хочет запускать модели от 30B параметров
Устал платить за облачные инстансы с A100/H100
Готов мириться с сыростью реализации ради скорости здесь и сейчас
Экспериментирует с длинным контекстом (32k+ токенов), где память одной карты не справляется

Для всех остальных (у кого одна карта или модель поменьше) проще использовать обычный llama.cpp. Не создавайте себе сложностей без необходимости.

Что будет дальше? Прогноз на 2026-2027

Tensor Parallelism в ik_llama - только начало. Уже в мае 2026 года ожидается слияние похожей функциональности в основной репозиторий llama.cpp (но без гарантий). К концу года, возможно, появится поддержка hybrid parallelism: часть слоев на GPU, часть на CPU через сложные конфигурации.

Мой совет: если у вас уже есть multi-GPU система, попробуйте ik_llama сегодня. Даже сырая реализация дает то, что раньше было доступно только в корпоративных фреймворках. А если карта одна - не гонитесь за хайпом. Иногда проще взять модель поменьше, но получить стабильность.

Потому что в мире AI скорость важна, но предсказуемость - важнее. А ik_llama с Tensor Parallelism - это как спортивная машина без ABS: летает, но требует твердой руки.

Подписаться на канал

Tensor Parallelism в ik_llama: подробный гайд по ускорению Gemma 4 31B на нескольких GPU