Маленькая модель, которая не врёт в арифметике
Знакомое чувство? Задаёшь языковой модели простую задачку: "Сколько будет 347 * 892?" Она с уверенностью выдаёт красивый ответ. Неправильный. Особенно если числа больше десяти. Особенно если нужно посчитать в уме.
Большие модели обожают врать в математике. Маленькие — тем более. Но команда Intel придумала хитрость: заставить Qwen3-4B не вычислять, а программировать.
Что внутри этой штуки?
Разберём по косточкам. Три компонента, которые делают магию:
- Qwen3-4B — компактная модель от Alibaba. Не монстр на 70B параметров, но достаточно умная для рассуждений. Главное — помещается на одной видеокарте.
- smolagents — минималистичный фреймворк для агентов. Создатели называют его "анти-LangChain". Никаких лишних абстракций, только работа.
- GRPO (Group Relative Policy Optimization) — секретный соус. Об этом методе мы писали в статье про GRPO. Коротко: учит модель не просто отвечать, а правильно использовать инструменты.
Всё вместе выглядит так: модель получает задачу → думает → пишет Python-сниппет → песочница выполняет → возвращает результат. Никаких галлюцинаций, только вычисления.
А зачем это нужно? Сравним с альтернативами
Откроем ChatGPT, Claude, или даже локальную Gemma 3 4B. Спросим: "Реши уравнение x² - 5x + 6 = 0".
Они ответят. Иногда правильно. Иногда выведут красивый текст с ошибкой в арифметике. Вы проверите? Вряд ли.
DeepMath делает иначе:
| Метод | Точность на GSM8K | Что происходит внутри |
|---|---|---|
| Обычный Qwen3-4B | ~58% | Модель "думает" текстом, часто ошибается в вычислениях |
| DeepMath (агент) | ~86% | Пишет Python-код, выполняет, возвращает точный результат |
| GPT-4 с Chain-of-Thought | ~92% | Дорого, медленно, но точно (иногда) |
Разница в 28 процентных пунктов. За счёт чего? За счёт того, что модель перестала "предсказывать" числа и начала их вычислять.
Важный момент: DeepMath не заменяет гигантские модели для всех задач. Он специализируется именно на математике. Для общего reasoning смотрите Ministral-3-14B-Reasoning или тёмные цепочки мыслей для Gemma.
Как это работает на практике? Пример из жизни
Допустим, вы аналитик. Нужно посчитать сложную метрику: "Средний чек клиентов, которые совершили больше 3 покупок за последний квартал, исключая возвраты".
Обычная LLM попытается угадать формулу. И навернётся на агрегациях.
DeepMath сделает так:
- Поймёт, что нужны данные (их нет — значит, нужно симулировать)
- Напишет Python-скрипт с генерацией тестовых данных
- Реализует фильтрацию: покупки > 3, период = квартал, исключить возвраты
- Посчитает средний чек
- Вернёт результат и код, который можно скопировать
Ключевое: код выполняется в песочнице. Безопасно. Модель не удалит ваши файлы, не отправит запросы в интернет. Только посчитает.
Чем отличается от других математических агентов?
На рынке есть альтернативы. Но у каждой — свои тараканы.
Grokkit — фреймворк, который мы разбирали в этой статье. Мощный, но сложный. Нужно разбираться в symbolic reasoning.
Просто написать "реши с помощью Python" в промпте — работает в 50% случаев. Модель ленится, пишет нерабочий код, забывает импорты.
Специализированные модели вроде DeepSeekMath — огромные, требуют тонны ресурсов. Не каждый запустит на своём железе.
DeepMath занимает нишу: маленькая модель (4B параметров), обученная специально на использование Python как инструмента. Не на знание математики, а на умение её вычислять.
Кому подойдёт DeepMath? А кому — нет?
Берите, если:
- Нужна точная математика в продукте (калькуляторы, аналитика, финансы)
- Хотите запустить локально на ограниченных ресурсах (даже без GPU)
- Устали проверять вычисления ChatGPT вручную
- Разрабатываете образовательный софт — важно, чтобы ответы были правильными
Не берите, если:
- Нужны общие reasoning-способности (для этого лучше GLM-4.7-REAP или другие большие модели)
- Работаете с текстом, а не с вычислениями
- Нужна интеграция с кучей внешних API (smolagents минималистичен)
- Требуется олимпиадная математика высшего уровня — для этого смотрите Gemini Deep Think
Что дальше? Прогнозы и подводные камни
Модель открытая. Код на GitHub. Можно дообучать под свои задачи. Например, добавить работу с pandas для анализа данных или sympy для символьной математики.
Но есть нюансы:
- Песочница — это медленно. Каждый вызов — запуск интерпретатора Python. Для batch-обработки не подходит.
- Только математика. Модель не умеет работать с графиками, изображениями, таблицами. Для визуализации смотрите Brain-canvas.
- Зависит от качества кода. Если модель напишет бесконечный цикл — выполнение зависнет.
Тренд очевиден: будущее не за гигантскими моделями, которые всё "знают", а за маленькими специалистами, которые умеют пользоваться инструментами. DeepMath — шаг в эту сторону.
Следующий логичный шаг? Комбинировать математического агента с Screen Vision для работы с GUI или с оркестраторами кода для сложных пайплайнов.
Но пока — это самый простой способ заставить 4B-модель считать как 70B. Без галлюцинаций. Без дорогого железа. Просто Python в песочнице и правильное обучение.