Маленькая модель, которая не врёт в арифметике

Знакомое чувство? Задаёшь языковой модели простую задачку: "Сколько будет 347 * 892?" Она с уверенностью выдаёт красивый ответ. Неправильный. Особенно если числа больше десяти. Особенно если нужно посчитать в уме.

Большие модели обожают врать в математике. Маленькие — тем более. Но команда Intel придумала хитрость: заставить Qwen3-4B не вычислять, а программировать.

💡

DeepMath — это не новая модель. Это обвязка вокруг Qwen3-4B, которая меняет её поведение. Вместо "думания" модель пишет Python-код и запускает его в песочнице. Результат? +66% точности по сравнению с обычным запросом.

Что внутри этой штуки?

Разберём по косточкам. Три компонента, которые делают магию:

Qwen3-4B — компактная модель от Alibaba. Не монстр на 70B параметров, но достаточно умная для рассуждений. Главное — помещается на одной видеокарте.
smolagents — минималистичный фреймворк для агентов. Создатели называют его "анти-LangChain". Никаких лишних абстракций, только работа.
GRPO (Group Relative Policy Optimization) — секретный соус. Об этом методе мы писали в статье про GRPO. Коротко: учит модель не просто отвечать, а правильно использовать инструменты.

Всё вместе выглядит так: модель получает задачу → думает → пишет Python-сниппет → песочница выполняет → возвращает результат. Никаких галлюцинаций, только вычисления.

А зачем это нужно? Сравним с альтернативами

Откроем ChatGPT, Claude, или даже локальную Gemma 3 4B. Спросим: "Реши уравнение x² - 5x + 6 = 0".

Они ответят. Иногда правильно. Иногда выведут красивый текст с ошибкой в арифметике. Вы проверите? Вряд ли.

DeepMath делает иначе:

Метод	Точность на GSM8K	Что происходит внутри
Обычный Qwen3-4B	~58%	Модель "думает" текстом, часто ошибается в вычислениях
DeepMath (агент)	~86%	Пишет Python-код, выполняет, возвращает точный результат
GPT-4 с Chain-of-Thought	~92%	Дорого, медленно, но точно (иногда)

Разница в 28 процентных пунктов. За счёт чего? За счёт того, что модель перестала "предсказывать" числа и начала их вычислять.

Важный момент: DeepMath не заменяет гигантские модели для всех задач. Он специализируется именно на математике. Для общего reasoning смотрите Ministral-3-14B-Reasoning или тёмные цепочки мыслей для Gemma.

Как это работает на практике? Пример из жизни

Допустим, вы аналитик. Нужно посчитать сложную метрику: "Средний чек клиентов, которые совершили больше 3 покупок за последний квартал, исключая возвраты".

Обычная LLM попытается угадать формулу. И навернётся на агрегациях.

DeepMath сделает так:

Поймёт, что нужны данные (их нет — значит, нужно симулировать)
Напишет Python-скрипт с генерацией тестовых данных
Реализует фильтрацию: покупки > 3, период = квартал, исключить возвраты
Посчитает средний чек
Вернёт результат и код, который можно скопировать

Ключевое: код выполняется в песочнице. Безопасно. Модель не удалит ваши файлы, не отправит запросы в интернет. Только посчитает.

Чем отличается от других математических агентов?

На рынке есть альтернативы. Но у каждой — свои тараканы.

Grokkit — фреймворк, который мы разбирали в этой статье. Мощный, но сложный. Нужно разбираться в symbolic reasoning.

Просто написать "реши с помощью Python" в промпте — работает в 50% случаев. Модель ленится, пишет нерабочий код, забывает импорты.

Специализированные модели вроде DeepSeekMath — огромные, требуют тонны ресурсов. Не каждый запустит на своём железе.

DeepMath занимает нишу: маленькая модель (4B параметров), обученная специально на использование Python как инструмента. Не на знание математики, а на умение её вычислять.

💡

GRPO здесь критичен. Без него модель часто "забывает" использовать Python и пытается угадать. Обучение с подкреплением (но без критика) закрепляет правильное поведение: "видишь числа — пиши код".

Кому подойдёт DeepMath? А кому — нет?

Берите, если:

Нужна точная математика в продукте (калькуляторы, аналитика, финансы)
Хотите запустить локально на ограниченных ресурсах (даже без GPU)
Устали проверять вычисления ChatGPT вручную
Разрабатываете образовательный софт — важно, чтобы ответы были правильными

Не берите, если:

Нужны общие reasoning-способности (для этого лучше GLM-4.7-REAP или другие большие модели)
Работаете с текстом, а не с вычислениями
Нужна интеграция с кучей внешних API (smolagents минималистичен)
Требуется олимпиадная математика высшего уровня — для этого смотрите Gemini Deep Think

Что дальше? Прогнозы и подводные камни

Модель открытая. Код на GitHub. Можно дообучать под свои задачи. Например, добавить работу с pandas для анализа данных или sympy для символьной математики.

Но есть нюансы:

Песочница — это медленно. Каждый вызов — запуск интерпретатора Python. Для batch-обработки не подходит.
Только математика. Модель не умеет работать с графиками, изображениями, таблицами. Для визуализации смотрите Brain-canvas.
Зависит от качества кода. Если модель напишет бесконечный цикл — выполнение зависнет.

Тренд очевиден: будущее не за гигантскими моделями, которые всё "знают", а за маленькими специалистами, которые умеют пользоваться инструментами. DeepMath — шаг в эту сторону.

Следующий логичный шаг? Комбинировать математического агента с Screen Vision для работы с GUI или с оркестраторами кода для сложных пайплайнов.

Но пока — это самый простой способ заставить 4B-модель считать как 70B. Без галлюцинаций. Без дорогого железа. Просто Python в песочнице и правильное обучение.

DeepMath от Intel: как заставить маленькую модель решать сложную математику с помощью smolagents и GRPO