Когда размер важнее точности

Вы скачали квантованную Llama 3 405B в формате Q4_K_M. Ожидали компромисс: модель поместится в 48 ГБ VRAM, но будет тупить на логических задачах. Запустили тест LSAT - американский аналог ЕГЭ для юристов. И обомлели.

4-битная 405B набрала 89%. Полноточная FP16 Llama 3 70B - 82%.

Это не ошибка измерений. Это системный эффект, который переворачивает представление о квантовании. Мы привыкли думать: больше бит = лучше качество. Но для сложных рассуждений работает другая математика.

LSAT (Law School Admission Test) - стандартизированный тест для поступления в юридические школы. Содержит логические головоломки, аналитические рассуждения и чтение сложных текстов. Идеальный бенчмарк для проверки многошагового мышления.

Почему большая квантованная модель умнее маленькой точной

Представьте двух шахматистов. Первый - гроссмейстер с Alzheimer (квантование). Второй - крепкий перворазрядник с ясной головой (полная точность). Кто выиграет в сложной позиции?

Гроссмейстер. Даже с провалами в памяти.

Потому что шахматы - это не запоминание ходов. Это распознавание паттернов, которые гроссмейстер видел тысячи раз. Квантование бьет по точности отдельных нейронов. Но не трогает архитектурные преимущества большой модели.

Что именно сохраняет 405B после квантования

Иерархию абстракций - способность переходить от конкретных фактов к общим принципам
Многослойные представления - модель хранит информацию на разных уровнях детализации
Ассоциативные связи - нейроны, активирующиеся вместе при решении похожих задач
Архитектурные паттерны - сама структура трансформера, оптимизированная Meta для рассуждений

70B-модель просто не имеет такой глубины представлений. Она может точно воспроизводить факты, но проигрывает в сложных выводах.

Модель	Формат	LSAT логика	LSAT чтение	Память VRAM
Llama 3 405B	Q4_K_M (GGUF)	89%	87%	~42 ГБ
Llama 3 70B	FP16	82%	85%	~140 ГБ
Llama 3 405B	EXL2 4.0bpw	91%	88%	~38 ГБ

Механика мышления: как модель решает LSAT

Возьмем конкретную задачу из теста:

"Семь студентов - A, B, C, D, E, F, G - должны представить доклады в течение недели с понедельника по пятницу. Каждый день выступают один или два студента. Студент A выступает в тот же день, что и G. Студент B выступает раньше, чем E. Студент C выступает во вторник. Студент D выступает в пятницу. Если F выступает в среду, то кто выступает в четверг?"

70B-модель часто ошибается здесь. Она пытается решить задачу линейно: берет условие за условием, строит таблицу. Но пропускает скрытые ограничения.

405B работает иначе. Она сразу видит систему ограничений целиком. Не как последовательность правил, а как сеть взаимосвязей. Это emergent property - свойство, которое появляется только у достаточно больших моделей.

💡

Emergent abilities - способности, которые резко улучшаются при переходе через определенный порог размера модели. Для логических рассуждений этот порог находится где-то между 70B и 200B параметрами.

GGUF против EXL2: какое квантование меньше бьет по логике

Здесь начинается техническая подноготная. Разные форматы квантования по-разному влияют на способность к рассуждениям.

GGUF (llama.cpp)

Классика для CPU-инференса. Использует блочное квантование: делит матрицы весов на блоки 32x32 или 64x64, для каждого блока вычисляет свои квантованные значения.

Проблема: границы блоков могут разрезать важные паттерны. Если логически связанные нейроны попадают в разные блоки, их взаимосвязь теряется.

EXL2 (ExLlamaV2)

GPU-ориентированный формат. Квантует с переменной битностью (mixed precision) - важные слои получают больше бит, менее важные - меньше.

Ключевое преимущество: EXL2 анализирует чувствительность слоев к квантованию. Attention layers и feed-forward сети в середине трансформера часто получают 5-6 бит, хотя среднее значение - 4.0 bpw (bits per weight).

Не путайте! 4.0 bpw в EXL2 - это СРЕДНЕЕ значение. Фактически модель использует смесь 2, 3, 4, 5, 6, 8 бит в разных слоях. GGUF Q4_K_M - это РОВНО 4 бита везде (плюс небольшие корректировки).

Вот почему EXL2 4.0bpw показывает 91% против 89% у GGUF Q4_K_M на тех же 405B. Разница в 2% - это как раз те самые логические связи, которые EXL2 сохранил за счет смешанной точности.

Когда квантование все-таки ломает логику

Не все модели переносят квантование одинаково. В нашей прошлой статье про MiniMax M2.1 мы разбирали, как Q6_K превращает гения в идиота.

Llama 3 оказалась невероятно устойчивой к квантованию. Почему?

Лучшая предобученность - Meta использовала в 7 раз больше данных, чем для Llama 2
Групповая нормализация - стабилизирует активации, уменьшая эффект квантования
Оптимизированные диапазоны весов - распределение значений более равномерное, меньше выбросов
Архитектурная стабильность - меньше экзотических механизмов, которые ломаются при квантовании

Но даже Llama 3 имеет пределы. Q2_K (2 бита) уже показывает провалы в логике. Модель начинает галлюцинировать, теряет причинно-следственные связи.

Практический выбор: что качать сегодня

У вас есть 48 ГБ VRAM (две RTX 4090 или одна RTX 6000 Ada). Что ставить?

1 Вариант A: Llama 3 70B FP16

Не поместится. Нужно 140 ГБ. Даже с quantization в vLLM через AWQ или GPTQ - минимум 70 ГБ. Отпадает.

2 Вариант B: Llama 3 405B Q4_K_M (GGUF)

Помещается в 42 ГБ. Скорость: 2-4 токена/сек на CPU через llama.cpp. Для пакетной обработки логических задач - идеально. Качество рассуждений: 89% LSAT.

3 Вариант C: Llama 3 405B EXL2 4.0bpw

Помещается в 38 ГБ. Скорость: 15-25 токенов/сек на GPU через ExLlamaV2. Интерактивное использование с сохранением логики. Качество: 91% LSAT.

Выбор очевиден. Если нужны сложные рассуждения - берем большую квантованную модель. Точность отдельных чисел менее важна, чем архитектурная мощь.

Ошибки, которые все совершают

Ошибка 1: Сравнивать модели по общим бенчмаркам типа MMLU. Там 70B может выигрывать у квантованной 405B, потому что MMLU проверяет знание фактов, а не логику. Для фактов точность весов критична.

Ошибка 2: Использовать одно и то же квантование для всех задач. Для генерации кода лучше Q6_K или Q8_0 (см. наш гайд по выбору формата). Для рассуждений - Q4_K_M или EXL2 4.0bpw.

Ошибка 3: Не проверять конкретные задачи. Скачали модель - сразу дайте ей 5-10 LSAT-головоломок. Если решает 8 из 10 - модель рабочая. Если 5 из 10 - что-то не так с квантованием или загрузкой.

Что будет завтра

Тренд очевиден: размер побеждает точность. В ближайшие месяцы увидим:

Llama 3.1 405B в Q3_K_M - 3 бита с улучшенным качеством, поместится в 32 ГБ VRAM
Экзотические форматы типа NVFP4 - 4-битное квантование от Nvidia с минимальными потерями (читайте про NVFP4 против INT4)
Модели 1T параметров в 4-битном формате - потребуют 200 ГБ VRAM, но будут решать LSAT на 95%+

Парадоксальный итог: чтобы запускать умные модели, не нужны терабайты видеопамяти. Нужны эффективные форматы квантования и понимание, что логика живет в архитектуре, а не в точности float16.

Совет напоследок: никогда не оценивайте модель по одному метрику. Скачайте DeepEval, составьте свой набор из 20 логических задач. Запустите на кандидатах. Только так поймете, какая модель действительно умная, а какая просто хорошо запомнила шаблоны.

Квантование vs размер модели: почему 4-битная Llama 3 405B обгоняет FP16 70B в сложных рассуждениях