Когда 108 миллиардов параметров помещаются в скромное железо
Gemini сказала мне, что это невозможно. Запустить модель на 108 миллиардов параметров на Threadripper 1920x с RTX 5060Ti? «Не хватит памяти», — предсказывал бот. Я решил проверить. Скачал GLM-4.6v 108B в 4-битном IQuant квантовании. Запустил. И получил 4-11 токенов в секунду. Это работает. Совсем не так, как в облаке, но работает.
Железо, которое не должно было справиться
Конфигурация выглядит как шутка для модели такого размера:
- Процессор: AMD Threadripper 1920x (12 ядер, 24 потока, 2017 год)
- Оперативная память: 128 ГБ DDR4
- Видеокарта: NVIDIA RTX 5060Ti (16 ГБ VRAM)
- Система: Ubuntu 24.04, llama.cpp последней сборки
Ключевой момент здесь — распределение. Модель весом около 55 ГБ в 4-битном формате не помещается в VRAM целиком. Она размазывается между видеопамятью и оперативкой. И это нормально.
Если вы ждете мгновенных ответов — это не ваш вариант. Скорость 4-11 t/s означает, что генерация абзаца займет минуту. Но для анализа документов, исследовательских задач, где важна глубина, а не скорость — это живой инструмент.
Цифры, которые имеют значение
Я замерил производительность на разных типах промптов:
| Тип запроса | Скорость (t/s) | Примечание |
|---|---|---|
| Короткий вопрос (англ.) | 10-11 | Лучший случай |
| Сложный анализ текста | 6-8 | Длинный контекст |
| Кодогенерация | 4-6 | Много вычислений |
| Китайский текст | 8-10 | Родной язык модели |
Потребление памяти: VRAM загружен на 15.2/16 ГБ, оперативка съедает около 70 ГБ. Система живая, можно параллельно открывать браузер (осторожно).
GLM-4.6v 108B против Nous Hermes 34B: неожиданный бой
У меня стояла Nous Hermes 34B в Q4_K_M. Я задал им одинаковые вопросы по программированию и анализу.
Nous Hermes быстрее — 22-25 t/s. Но GLM-4.6v глубже. На вопрос о тонкой оптимизации Python кода Hermes дал стандартный ответ. GLM-4.6v вспомнил про детали реализации CPython, предложил три подхода с анализом trade-offs для каждого.
В анализе технического текста на английском GLM тоже выиграл. Hermes часто упускал нюансы, GLM цеплялся за каждую деталь, строил связи между разделами.
Где IQuant обгоняет обычные GGUF квантования
Я сравнивал с тем, что знаю про Q3_K_M и Q3_K_XL для GLM-4.7. IQuant для GLM серии — как родной формат.
- Меньший размер при том же воспринимаемом качестве (особенно для китайского)
- Лучшая стабильность на граничных конфигурациях
- Меньше артефактов в длинных генерациях
Но есть нюанс: IQuant версии часто появляются позже обычных GGUF. Нужно ждать, пока сообщество подготовит.
Практическое применение: что можно делать с такой скоростью
4-11 токенов в секунду — это не для чата. Это для задач, где вы отправляете запрос и идете пить кофе.
- Анализ длинных документов. Загружаете техническую спецификацию на 50 страниц, просите выделить ключевые решения и риски. Ждете 3-5 минут. Получаете анализ, на который ушел бы день.
- Research assistance. Формулируете сложный исследовательский вопрос с контекстом. Модель думает минуту, выдает структурированный ответ с гипотезами.
- Код-ревью статических снимков. Не интерактивно, а «вот кусок кода, найди проблемы».
- Планирование проектов. Даете описание, получаете детальный план с этапами и подводными камнями.
Интересно, что для подобных сценариев есть и экстремальные подходы — например, методы из статьи про запуск 355-миллиардной модели на старом железе. Но там уже совсем другие компромиссы.
Кому это нужно в 2026 году?
Если у вас RTX 5090 с 48 ГБ VRAM — вы запустите эту модель с комфортной скоростью. Но таких людей мало.
Этот тест для тех, у кого:
- Есть старый Threadripper или Xeon с кучей RAM (64+ ГБ)
- Видеокарта среднего уровня с 12-16 ГБ VRAM (типа RTX 4060 Ti, 5060Ti)
- Нет желания платить за API для больших моделей (а GLM-4.6v в облаке дорогая)
- Нужна максимально возможная глубина анализа локально, скорость вторична
Это также ответ на вопрос «что можно сделать с 128 ГБ оперативки». Теперь у вас есть вариант: поставить 4-битную модель на 100+ миллиардов и получить качество, близкое к GPT-4 уровня 2024 года, но бесплатно и приватно.
Важный момент: GLM-4.6v — китайская модель. Она сильна в технических и аналитических задачах, но может иметь специфику в культурном контексте и политических вопросах. Для чистого анализа кода и документов — отлично.
Что будет дальше с большими квантованными моделями
Тренд ясен: модели растут, квантование становится агрессивнее, а железо энтузиастов отстает. Форматы вроде IQuant и аналоги (смотрите NVFP4 от Nvidia) будут развиваться.
Через год мы, возможно, будем обсуждать GLM-5 200B в 3-битном квантовании на таком же железе. Скорость останется 5-12 t/s, но качество приблизится к сегодняшним облачным гигантам.
Мой совет: если у вас уже есть много RAM и средняя видеокарта — не бойтесь пробовать большие квантованные модели. Даже 4 токена в секунду меняют подход к работе. Вы перестаете «болтать» с ИИ и начинаете ставить ему сложные задачи, уходя заниматься другим делом на время генерации. Это другой workflow, но для многих задач — более эффективный.
А если хочется чего-то поменьше и побыстрее, но тоже качественного — посмотрите на IQuestCoder-40B или даже компактные модели вроде LFM2.5. Выбор есть.
Главное — не слушайте ИИ, который говорит, что что-то невозможно. Особенно если этот ИИ — Gemini.