Когда 108 миллиардов параметров помещаются в скромное железо

Gemini сказала мне, что это невозможно. Запустить модель на 108 миллиардов параметров на Threadripper 1920x с RTX 5060Ti? «Не хватит памяти», — предсказывал бот. Я решил проверить. Скачал GLM-4.6v 108B в 4-битном IQuant квантовании. Запустил. И получил 4-11 токенов в секунду. Это работает. Совсем не так, как в облаке, но работает.

💡

IQuant — это специфический метод 4-битного квантования от сообщества. Он отличается от стандартных GGUF подходов и часто дает лучший баланс между размером и качеством для китайских моделей вроде GLM.

Железо, которое не должно было справиться

Конфигурация выглядит как шутка для модели такого размера:

Процессор: AMD Threadripper 1920x (12 ядер, 24 потока, 2017 год)
Оперативная память: 128 ГБ DDR4
Видеокарта: NVIDIA RTX 5060Ti (16 ГБ VRAM)
Система: Ubuntu 24.04, llama.cpp последней сборки

Ключевой момент здесь — распределение. Модель весом около 55 ГБ в 4-битном формате не помещается в VRAM целиком. Она размазывается между видеопамятью и оперативкой. И это нормально.

Если вы ждете мгновенных ответов — это не ваш вариант. Скорость 4-11 t/s означает, что генерация абзаца займет минуту. Но для анализа документов, исследовательских задач, где важна глубина, а не скорость — это живой инструмент.

Цифры, которые имеют значение

Я замерил производительность на разных типах промптов:

Тип запроса	Скорость (t/s)	Примечание
Короткий вопрос (англ.)	10-11	Лучший случай
Сложный анализ текста	6-8	Длинный контекст
Кодогенерация	4-6	Много вычислений
Китайский текст	8-10	Родной язык модели

Потребление памяти: VRAM загружен на 15.2/16 ГБ, оперативка съедает около 70 ГБ. Система живая, можно параллельно открывать браузер (осторожно).

GLM-4.6v 108B против Nous Hermes 34B: неожиданный бой

У меня стояла Nous Hermes 34B в Q4_K_M. Я задал им одинаковые вопросы по программированию и анализу.

Nous Hermes быстрее — 22-25 t/s. Но GLM-4.6v глубже. На вопрос о тонкой оптимизации Python кода Hermes дал стандартный ответ. GLM-4.6v вспомнил про детали реализации CPython, предложил три подхода с анализом trade-offs для каждого.

В анализе технического текста на английском GLM тоже выиграл. Hermes часто упускал нюансы, GLM цеплялся за каждую деталь, строил связи между разделами.

💡

Это подтверждает правило: больше параметров — больше глубины понимания, даже после агрессивного квантования. Если вам нужна не скорость, а качество анализа — большая квантованная модель лучше маленькой точной.

Где IQuant обгоняет обычные GGUF квантования

Я сравнивал с тем, что знаю про Q3_K_M и Q3_K_XL для GLM-4.7. IQuant для GLM серии — как родной формат.

Меньший размер при том же воспринимаемом качестве (особенно для китайского)
Лучшая стабильность на граничных конфигурациях
Меньше артефактов в длинных генерациях

Но есть нюанс: IQuant версии часто появляются позже обычных GGUF. Нужно ждать, пока сообщество подготовит.

Практическое применение: что можно делать с такой скоростью

4-11 токенов в секунду — это не для чата. Это для задач, где вы отправляете запрос и идете пить кофе.

Анализ длинных документов. Загружаете техническую спецификацию на 50 страниц, просите выделить ключевые решения и риски. Ждете 3-5 минут. Получаете анализ, на который ушел бы день.
Research assistance. Формулируете сложный исследовательский вопрос с контекстом. Модель думает минуту, выдает структурированный ответ с гипотезами.
Код-ревью статических снимков. Не интерактивно, а «вот кусок кода, найди проблемы».
Планирование проектов. Даете описание, получаете детальный план с этапами и подводными камнями.

Интересно, что для подобных сценариев есть и экстремальные подходы — например, методы из статьи про запуск 355-миллиардной модели на старом железе. Но там уже совсем другие компромиссы.

Кому это нужно в 2026 году?

Если у вас RTX 5090 с 48 ГБ VRAM — вы запустите эту модель с комфортной скоростью. Но таких людей мало.

Этот тест для тех, у кого:

Есть старый Threadripper или Xeon с кучей RAM (64+ ГБ)
Видеокарта среднего уровня с 12-16 ГБ VRAM (типа RTX 4060 Ti, 5060Ti)
Нет желания платить за API для больших моделей (а GLM-4.6v в облаке дорогая)
Нужна максимально возможная глубина анализа локально, скорость вторична

Это также ответ на вопрос «что можно сделать с 128 ГБ оперативки». Теперь у вас есть вариант: поставить 4-битную модель на 100+ миллиардов и получить качество, близкое к GPT-4 уровня 2024 года, но бесплатно и приватно.

Важный момент: GLM-4.6v — китайская модель. Она сильна в технических и аналитических задачах, но может иметь специфику в культурном контексте и политических вопросах. Для чистого анализа кода и документов — отлично.

Что будет дальше с большими квантованными моделями

Тренд ясен: модели растут, квантование становится агрессивнее, а железо энтузиастов отстает. Форматы вроде IQuant и аналоги (смотрите NVFP4 от Nvidia) будут развиваться.

Через год мы, возможно, будем обсуждать GLM-5 200B в 3-битном квантовании на таком же железе. Скорость останется 5-12 t/s, но качество приблизится к сегодняшним облачным гигантам.

Мой совет: если у вас уже есть много RAM и средняя видеокарта — не бойтесь пробовать большие квантованные модели. Даже 4 токена в секунду меняют подход к работе. Вы перестаете «болтать» с ИИ и начинаете ставить ему сложные задачи, уходя заниматься другим делом на время генерации. Это другой workflow, но для многих задач — более эффективный.

А если хочется чего-то поменьше и побыстрее, но тоже качественного — посмотрите на IQuestCoder-40B или даже компактные модели вроде LFM2.5. Выбор есть.

Главное — не слушайте ИИ, который говорит, что что-то невозможно. Особенно если этот ИИ — Gemini.

GLM-4.6v 108B в 4-битном квантовании IQuant: тест на реальном железе, скорость и качество генерации