WizardLM Mix-GRM: Синтез B-CoT и D-CoT для оценки LLM | 2026

Оценка генеративных моделей всегда напоминала гадание на кофейной гуще. Особенно когда речь заходит о reward-моделях - тех самых, что учат ИИ понимать, что 'хорошо', а что 'плохо'. В 2026 году команда WizardLM предлагает радикально новый подход: Mix-GRM, который синтезирует два типа reasoning'а - Breadth CoT (B-CoT) и Depth CoT (D-CoT). И да, это не просто очередной патч, а фундаментальный сдвиг.

Reward-модели? Сломанный компас

Традиционные методы оценки вывода LLM часто проваливаются. Они либо зациклены на поверхностной связности текста, либо требуют тонны человеческих аннотаций, которые к 2026 году стали дороже шафрана. Помните старые добрые RLHF и DPO? Они уже хрипят на сложных задачах, где нужен не просто 'красивый' ответ, а структурно верный.

Проблема в том, что reward-модель часто не видит разницы между глубоким, логичным рассуждением и просто длинным, витиеватым бредом. Она хвалит объем, а не качество мысли.

И вот тут появляется концепция Chain-of-Thought (CoT). Но не та, о которой все говорят. WizardLM разделила reasoning на два лагеря: широту (Breadth) и глубину (Depth).

B-CoT vs D-CoT: Два мозга в одной голове

Breadth CoT (B-CoT) - это про охват. Модель рассматривает проблему с разных сторон, генерирует множество гипотез, альтернативных путей. Это как мозговой штурм на скорости света. Depth CoT (D-CoT) - это про погружение. Модель копает вглубь одной идеи, выстраивает строгую логическую цепочку, проверяет каждое звено. Это как хирургическая операция для мысли.

💡

До 2025 года считалось, что для сложных задач нужно просто 'больше reasoning'а'. Команда WizardLM доказала: важно не количество шагов, а их структура. Это перекликается с идеями DTR, который ускорял LLM без потерь, но на более фундаментальном уровне.

Проблема в том, что одна модель редко хорошо делает и то, и другое. Некоторые модели, как GLM-4.7, отлично показывают себя в широких рассуждениях, но могут пропустить логическую ошибку в глубине. Другие, более сфокусированные, наоборот.

Mix-GRM: Фьюжн, который работает

Mix-GRM (Generative Reward Model) - это не просто усреднение двух подходов. Это архитектурный синтез. Модель обучается одновременно оценивать и широту покрытия аргументов (B-CoT), и глубину логической проработки (D-CoT). В основе - метод RLVR (Reinforced Learning from Vision and Reasoning), который позволяет reward-модели 'видеть' структуру reasoning'а, а не просто его текстурный паттерн.

Что это дает на практике? Reward-модель теперь может отличить красивый, но пустой ответ от краткого, но сверхточного. Она наказывает за логические провалы, даже если они замаскированы под грамотный английский. И поощряет те решения, где модель действительно 'думала', а не генерировала по шаблону.

Критерий оценки	Старая reward-модель	Mix-GRM
Логическая последовательность	Оценивает слабо, часто пропускает ошибки	Анализирует глубину (D-CoT), ловит разрывы в цепочке
Полнота рассмотрения	Поощряет длину, а не разнообразие идей	Оценивает широту (B-CoT), поощряет альтернативные пути
Применимость к синтетическим данным	Теряется, если данные сгенерированы другой LLM	Устойчива, так как фокусируется на структуре, а не стиле

Звучит как магия? Отчасти да. Но эта магия основана на жесткой математике и новом взгляде на то, что такое 'качество' reasoning'а. (И нет, это не тот взгляд, который предлагает просто отключить thinking, как в GLM 4.5 Air с enable_thinking: false для скорости).

Зачем это вам в 2026 году?

Если вы fine-tune'ите модели, особенно для задач, требующих reasoning'а - от анализа кода до научных гипотез - старые методы оценки вас уже подводят. Выравнивание через DPO или SimPO будет эффективным только если reward-сигнал точен. Mix-GRM предоставляет этот точный сигнал.

Для генерации синтетических данных: Обучая модель с Mix-GRM, вы получаете более качественные reasoning-траектории для последующего обучения. Это напрямую влияет на то, какие локальные модели лучше генерируют данные.
Для экономии: Более точная оценка означает меньше итераций тонкой настройки. Меньше GPU часов. Меньше счет от облачных провайдеров. Экономия может быть сопоставима с переходом с Claude на GLM4.7 + CC.
Для прозрачности: Вы наконец-то понимаете, за что именно хвалите или ругаете свою модель. Не 'ответ слишком короткий', а 'в reasoning'е отсутствует анализ второго возможного следствия из посылки'.

Но есть и подводные камни. Mix-GRM требует для обучения размеченных данных, где эксперты оценили не только итоговый ответ, но и структуру reasoning'а. Создание таких датасетов - адский труд. (Хотя, возможно, скоро его автоматизируют с помощью того же Mix-GRM).

Что дальше? Прогноз от того, кто видел много хайпа

К концу 2026 года синтез B-CoT и D-CoT станет стандартом де-факто для оценки любых сложных генеративных задач. Не только в тексте, но и в мультимодальных моделях. Фреймворки для тонкой настройки, такие как TRL, интегрируют подобные reward-модели по умолчанию.

Но главный сдвиг будет в другом. Мы перестанем слепо верить в 'длинный reasoning - хороший reasoning'. Мы начнем проектировать и оценивать ИИ-мышление по его архитектуре, а не по объему. И тогда, возможно, мы получим модели, которые действительно думают, а не просто убедительно болтают.

P.S. Если вы только начинаете путь fine-tuning'а, не гонитесь сразу за сложными архитектурами. Сначала разберитесь с основами - например, как дообучить 7B-модель на Colab. Потом уже внедряйте Mix-GRM. Иначе рискуете получить идеально оцененный бред.

Подписаться на канал

WizardLM Mix-GRM: Широта против глубины, или Как синтез reasoning'а переворачивает оценку ИИ

Reward-модели? Сломанный компас

B-CoT vs D-CoT: Два мозга в одной голове

Mix-GRM: Фьюжн, который работает

Зачем это вам в 2026 году?

Что дальше? Прогноз от того, кто видел много хайпа

Подписывайтесь на наш канал!