DeepMath Intel: Qwen3-4B + smolagents + GRPO для математики | AiManual
AiManual Logo Ai / Manual.
11 Янв 2026 Инструмент

DeepMath от Intel: как заставить маленькую модель решать сложную математику с помощью smolagents и GRPO

Как Intel заставил Qwen3-4B решать сложную математику с помощью агентов, Python-песочницы и GRPO. Сравнение с альтернативами и примеры использования.

Маленькая модель, которая не врёт в арифметике

Знакомое чувство? Задаёшь языковой модели простую задачку: "Сколько будет 347 * 892?" Она с уверенностью выдаёт красивый ответ. Неправильный. Особенно если числа больше десяти. Особенно если нужно посчитать в уме.

Большие модели обожают врать в математике. Маленькие — тем более. Но команда Intel придумала хитрость: заставить Qwen3-4B не вычислять, а программировать.

💡
DeepMath — это не новая модель. Это обвязка вокруг Qwen3-4B, которая меняет её поведение. Вместо "думания" модель пишет Python-код и запускает его в песочнице. Результат? +66% точности по сравнению с обычным запросом.

Что внутри этой штуки?

Разберём по косточкам. Три компонента, которые делают магию:

  • Qwen3-4B — компактная модель от Alibaba. Не монстр на 70B параметров, но достаточно умная для рассуждений. Главное — помещается на одной видеокарте.
  • smolagents — минималистичный фреймворк для агентов. Создатели называют его "анти-LangChain". Никаких лишних абстракций, только работа.
  • GRPO (Group Relative Policy Optimization) — секретный соус. Об этом методе мы писали в статье про GRPO. Коротко: учит модель не просто отвечать, а правильно использовать инструменты.

Всё вместе выглядит так: модель получает задачу → думает → пишет Python-сниппет → песочница выполняет → возвращает результат. Никаких галлюцинаций, только вычисления.

А зачем это нужно? Сравним с альтернативами

Откроем ChatGPT, Claude, или даже локальную Gemma 3 4B. Спросим: "Реши уравнение x² - 5x + 6 = 0".

Они ответят. Иногда правильно. Иногда выведут красивый текст с ошибкой в арифметике. Вы проверите? Вряд ли.

DeepMath делает иначе:

Метод Точность на GSM8K Что происходит внутри
Обычный Qwen3-4B ~58% Модель "думает" текстом, часто ошибается в вычислениях
DeepMath (агент) ~86% Пишет Python-код, выполняет, возвращает точный результат
GPT-4 с Chain-of-Thought ~92% Дорого, медленно, но точно (иногда)

Разница в 28 процентных пунктов. За счёт чего? За счёт того, что модель перестала "предсказывать" числа и начала их вычислять.

Важный момент: DeepMath не заменяет гигантские модели для всех задач. Он специализируется именно на математике. Для общего reasoning смотрите Ministral-3-14B-Reasoning или тёмные цепочки мыслей для Gemma.

Как это работает на практике? Пример из жизни

Допустим, вы аналитик. Нужно посчитать сложную метрику: "Средний чек клиентов, которые совершили больше 3 покупок за последний квартал, исключая возвраты".

Обычная LLM попытается угадать формулу. И навернётся на агрегациях.

DeepMath сделает так:

  1. Поймёт, что нужны данные (их нет — значит, нужно симулировать)
  2. Напишет Python-скрипт с генерацией тестовых данных
  3. Реализует фильтрацию: покупки > 3, период = квартал, исключить возвраты
  4. Посчитает средний чек
  5. Вернёт результат и код, который можно скопировать

Ключевое: код выполняется в песочнице. Безопасно. Модель не удалит ваши файлы, не отправит запросы в интернет. Только посчитает.

Чем отличается от других математических агентов?

На рынке есть альтернативы. Но у каждой — свои тараканы.

Grokkit — фреймворк, который мы разбирали в этой статье. Мощный, но сложный. Нужно разбираться в symbolic reasoning.

Просто написать "реши с помощью Python" в промпте — работает в 50% случаев. Модель ленится, пишет нерабочий код, забывает импорты.

Специализированные модели вроде DeepSeekMath — огромные, требуют тонны ресурсов. Не каждый запустит на своём железе.

DeepMath занимает нишу: маленькая модель (4B параметров), обученная специально на использование Python как инструмента. Не на знание математики, а на умение её вычислять.

💡
GRPO здесь критичен. Без него модель часто "забывает" использовать Python и пытается угадать. Обучение с подкреплением (но без критика) закрепляет правильное поведение: "видишь числа — пиши код".

Кому подойдёт DeepMath? А кому — нет?

Берите, если:

  • Нужна точная математика в продукте (калькуляторы, аналитика, финансы)
  • Хотите запустить локально на ограниченных ресурсах (даже без GPU)
  • Устали проверять вычисления ChatGPT вручную
  • Разрабатываете образовательный софт — важно, чтобы ответы были правильными

Не берите, если:

  • Нужны общие reasoning-способности (для этого лучше GLM-4.7-REAP или другие большие модели)
  • Работаете с текстом, а не с вычислениями
  • Нужна интеграция с кучей внешних API (smolagents минималистичен)
  • Требуется олимпиадная математика высшего уровня — для этого смотрите Gemini Deep Think

Что дальше? Прогнозы и подводные камни

Модель открытая. Код на GitHub. Можно дообучать под свои задачи. Например, добавить работу с pandas для анализа данных или sympy для символьной математики.

Но есть нюансы:

  • Песочница — это медленно. Каждый вызов — запуск интерпретатора Python. Для batch-обработки не подходит.
  • Только математика. Модель не умеет работать с графиками, изображениями, таблицами. Для визуализации смотрите Brain-canvas.
  • Зависит от качества кода. Если модель напишет бесконечный цикл — выполнение зависнет.

Тренд очевиден: будущее не за гигантскими моделями, которые всё "знают", а за маленькими специалистами, которые умеют пользоваться инструментами. DeepMath — шаг в эту сторону.

Следующий логичный шаг? Комбинировать математического агента с Screen Vision для работы с GUI или с оркестраторами кода для сложных пайплайнов.

Но пока — это самый простой способ заставить 4B-модель считать как 70B. Без галлюцинаций. Без дорогого железа. Просто Python в песочнице и правильное обучение.