218 миллиардов параметров. Вы серьезно?

Когда Cerebras выкатывает GLM-4.7 REAP с 218 миллиардами параметров, это не просто релиз модели. Это заявление. Типа "смотрите, что мы можем". Проблема в том, что запустить эту штуку на чем-то меньшем, чем дата-центр Google - задача для мазохистов.

Оригинальная FP16 версия весит около 415 ГБ. Да, вы не ослышались. Четыреста пятнадцать гигабайт. Это больше, чем SSD у половины читателей.

Зачем тогда вообще смотреть в эту сторону?

А вот здесь начинается самое интересное. Сообщество уже набросилось на HuggingFace репозиторий и начало квантовать эту махину во все возможные форматы. От GGUF до AWQ и GPTQ. Потому что если ужать её до разумных размеров...

Если ужать до 4-бит, получается "всего" 55-60 ГБ. Это уже почти реалистично для нескольких RTX 4090 или одной A100. Почти.

Тестовый стенд: что мы проверяли

Я не стал мерить стандартные MMLU или HellaSwag. После истории с ReAP квантованием, где бумажные метрики оказались полной фикцией, подход другой.

Три типа задач:

Сложные цепочки рассуждений на 5-7 шагов
Анализ технической документации с последующими выводами
Генерация кода средней сложности с обработкой ошибок

Для сравнения взял:

Модель	Формат	Размер	Память при загрузке
GLM-4.7 REAP 218B	Q4_K_M (GGUF)	58.4 ГБ	~72 ГБ VRAM
GLM-4.7 REAP 218B	Q3_K_XL	44.1 ГБ	~55 ГБ VRAM
Llama 3.2 90B	Q4_K_M	48.7 ГБ	~60 ГБ VRAM

Результаты: где 218B бьют, а где промахиваются

Первое, что бросается в глаза - GLM-4.7 REAP обходит Llama 3.2 в сложных логических цепочках. Не на 5-10%, а кардинально. Если задача требует удержать в голове 6-7 условий и сделать из них вывод, 218 миллиардов параметров работают как часы.

Но вот в анализе технических текстов разница уже меньше. Всего 15-20% преимущества. Видимо, после определенного порога параметров закон убывающей отдачи включается на полную.

💡

Кодогенерация - отдельная история. GLM-4.7 REAP генерирует код, который часто компилируется с первого раза. Но скорость генерации... об этом ниже.

Проблема скорости: 218B - это медленно

Даже с квантованием до 4 бит, даже на четырех RTX 4090, скорость генерации - 2-3 токена в секунду. Для сравнения: Llama 3.2 90B дает 8-10 токенов/сек на том же железе.

Почему так? Потому что 218 миллиардов параметров нужно прогонять через каждый слой. Каждый раз. И если у вас нет доступа к чудовищным кластерам Cerebras CS-3 (а у кого он есть?), вы обречены на медленное общение.

Квантование: какие версии работают, а какие нет

Q4_K_M - золотая середина. 58 ГБ, качество падает на 8-12% от теоретического максимума, но модель остается вменяемой. Q3_K_XL уже опаснее - в сложных задачах начинает терять логические связи. Особенно заметно после 4-го шага рассуждений.

Про q2_k_s даже не начинайте. Модель превращается в генератор красивого, но бессмысленного текста. Как в том сравнении квантований Unsloth, где низкобитные версии просто переставали работать на реальных задачах.

Сравнение с Llama 3.2 90B: кто кого?

Если у вас ограничения по памяти - берите Llama 3.2. Она почти в два раза меньше, быстрее, и для 80% задач разницы не заметите.

Но если нужен абсолютный максимум качества в сложных рассуждениях, и вы готовы ждать по 10 минут на ответ - GLM-4.7 REAP ваш выбор. При условии, что найдете где его запустить.

Интересно, что в сравнении с Claude 4.5 Sonnet разрыв меньше, чем можно было ожидать. Видимо, после определенного уровня качество упирается в другие ограничения.

Практические советы по запуску

1. Не пытайтесь запустить на чем-то меньшем, чем 80 ГБ VRAM. Даже с квантованием Q4.

2. Используйте llama.cpp последней версии. Старые версии просто падают при попытке загрузить модель.

3. Настройте контекстное окно аккуратно. 32К токенов съедят всю доступную память.

4. Если хочется поэкспериментировать без продажи почки - ищите готовые квантованные версии на HuggingFace. Коммьюнити уже выложило десятки вариантов.

Для тех, кто хочет понять разницу между методами квантования, есть полный гайд по квантованию в vLLM. Там разобраны все популярные методы на реальном железе.

Кому эта модель вообще нужна?

Исследователям, которые тестируют пределы возможностей LLM. Разработчикам очень специфичных систем, где качество важнее скорости в 100 раз. И всем, у кого есть доступ к A100/H100 кластеру и скучно по вечерам.

Для обычных задач - разработки, анализа текстов, чатов - берите что-то меньшее. 70B параметров хватит за глаза, особенно если использовать правильные промпты для сравнения LLM.

И последнее: если думаете, что GLM-4.7 REAP решит все ваши проблемы - нет. Она создаст новые. Проблемы с памятью, со скоростью, с нагревом помещения. Но зато когда она наконец выдаст ответ... вы почувствуете, что 218 миллиардов параметров потрачены не зря.

Ну или почти не зря.

GLM-4.7 REAP 218B: 218 миллиардов параметров, которые вы никогда не запустите (но квантованные - может быть)