Год, когда модели начали думать. По-настоящему
Забудьте про GPT-4. Забудьте про Gemini. 2025 год в мире LLM начался с того, что все эти модели внезапно стали выглядеть как калькуляторы на фоне первых компьютеров. Потому что появились reasoning-модели.
И нет, это не очередной маркетинговый термин вроде "нейросеть с эмоциями". Речь о фундаментальном изменении архитектуры. Если раньше модели просто предсказывали следующее слово, то теперь они могут планировать, рассуждать, идти по цепочке мыслей — и делать это настолько хорошо, что иногда пугает.
Reasoning-модели — это не просто "умнее". Это другой принцип работы. Вместо одного прохода генерируют цепочку рассуждений, проверяют её, исправляют ошибки. Как человек решает сложную задачу: сначала думает, потом отвечает.
DeepSeek R1: китайский дзен, который перевернул всё
В январе 2025 DeepSeek выпустили R1. Все ждали очередной итерации их кодера. Вместо этого получили первую production-готовую reasoning-модель.
Что в ней особенного? Она не просто генерирует ответ. Она показывает свою "кухню".
# Вот как работает R1 на примере задачи
# Вместо этого:
"Сколько будет 17 * 24?" → "408"
# Она делает так:
"Сколько будет 17 * 24?"
→ "Думаю... 17 * 20 = 340"
→ "17 * 4 = 68"
→ "340 + 68 = 408"
→ "Проверяю: 20 * 24 = 480, минус 3 * 24 = 72, 480 - 72 = 408"
→ "Ответ: 408"
Кажется простым? Попробуйте объяснить это стандартной LLM. Она даст ответ, но не покажет ход мыслей. А если ошибётся — вы никогда не узнаете, где именно.
R1 изменила правила игры в трёх областях:
- Математика и логика: Решает задачи уровня олимпиад, которые раньше были недоступны даже GPT-4
- Кодинг: Пишет не просто код, а объясняет, почему выбрала именно эту архитектуру
- Научные исследования: Строит гипотезы и проверяет их — как настоящий учёный
RLVR и GRPO: как научить нейросеть думать, а не угадывать
Вот где начинается настоящая магия. Все слышали про Reinforcement Learning (обучение с подкреплением). Но в 2025 вышли две методики, которые переписали учебники.
1 RLVR: Обучение с подкреплением через верификацию рассуждений
Представьте, что вы учите ребёнка решать задачи. Вы не просто говорите "правильно/неправильно". Вы смотрите на его тетрадь, видите каждый шаг, и говорите: "Здесь ты ошибся в сложении, здесь забыл про знак минуса".
RLVR делает то же самое с нейросетями. Вместо награды за конечный результат — награда за каждый правильный шаг рассуждения.
# Упрощённая схема RLVR
problem = "Решите уравнение: 2x + 5 = 15"
# Старый подход (RLHF):
model_output = "x = 5"
reward = check_if_correct(model_output) # True/False
# Новый подход (RLVR):
model_reasoning = [
"2x + 5 = 15",
"Вычитаем 5: 2x = 10", # +0.3 балла
"Делим на 2: x = 5" # +0.7 балла
]
reward = sum(check_each_step(model_reasoning)) # 1.0
2 GRPO: Групповое обучение с подкреплением
А это вообще гениально. Вместо обучения одной модели — обучаем группу. Как команда разработчиков ревьюит код друг друга.
| Метод | Как работает | Результат |
|---|---|---|
| RLHF (старый) | Человек оценивает ответ | Модель учится угадывать, что понравится человеку |
| RLVR | Система оценивает каждый шаг рассуждения | Модель учится правильно думать |
| GRPO | Группа моделей оценивает друг друга | Модель учится у других моделей, становится стабильнее |
GRPO особенно эффективен для opensource-сообщества. Ведь теперь можно взять лучшие локальные LLM 2025, заставить их работать вместе — и получить результат лучше, чем у любой модели по отдельности.
Тренды, которые определили год
2025 не был годом одного прорыва. Это был год системных изменений. Вот что действительно важно:
Смерть универсальных моделей
Помните, как все гонялись за "лучшей моделью вообще"? Теперь это звучит так же глупо, как искать "лучший инструмент вообще" для столяра, хирурга и программиста.
В 2025 окончательно победила специализация. Как мы писали в гиде по opensource LLM, теперь есть модели для кодинга, для математики, для творчества, для научных исследований. И они между собой почти не пересекаются.
Внимание: это создаёт новую проблему. Если вы используете одну модель для всего — вы проигрываете тем, кто использует специализированные инструменты. Но и содержать 10 разных моделей — дорого и сложно.
Reasoning как сервис
К концу года reasoning-способности стали товаром. Несколько стартапов начали предлагать API, где можно отправить задачу — и получить не просто ответ, а полную цепочку рассуждений.
Это меняет всё в образовании, науке, даже в юриспруденции. Теперь можно не просто получить юридическое заключение, а увидеть, как модель пришла к такому выводу. Проверить логику. Найти слабые места.
Open source догоняет, а иногда и обгоняет
Год назад разрыв между коммерческими и opensource-моделями казался непреодолимым. Сегодня — посмотрите на локальные LLM с Tool Calling. Многие из них работают лучше, чем GPT-4 в специфических задачах.
Почему? Потому что коммерческие модели должны быть универсальными. А opensource-сообщество может создать модель, заточенную под одну конкретную задачу. И сделать её идеальной.
Провалы и разочарования 2025
Не всё было гладко. Некоторые ожидания не оправдались:
- Мультимодальность так и не взлетела: Все ждали, что модели начнут одинаково хорошо понимать текст, изображения, видео. Получилось "всё понемногу, ничего хорошо".
- Гонка параметров остановилась: После Llama 3.3 с её 400B параметров все поняли — больше не значит лучше. Эффективность победила размер.
- Агенты всё ещё глупые: Автономные ИИ-агенты, которые могли бы выполнять сложные задачи, так и остались лабораторными игрушками. В продакшене они либо ломаются, либо делают глупости.
Самое обидное — кризис железа для локального AI. Цены на GPU взлетели так, что даже энтузиасты задумались — а стоит ли оно того?
Что ждёт нас в 2026? Три смелых прогноза
Глядя на то, что произошло в 2025, можно сделать несколько предсказаний:
- Reasoning станет стандартом. Через год модели без цепочек рассуждений будут выглядеть как калькуляторы на фоне компьютеров. Это будет минимальное требование.
- Специализация усилится. Появятся модели не просто "для кодинга", а "для разработки на Python в области data science". Узкая специализация победит.
- Интерфейсы умрут. Зачем графический интерфейс, если можно просто говорить с моделью? Голосовые и thought-интерфейсы заменят кнопки и меню.
Но главное — изменится наше отношение к ИИ. Мы перестанем воспринимать его как "чёрный ящик". Благодаря reasoning-моделям мы сможем заглядывать внутрь, понимать логику, спорить с выводами.
2025 год показал: ИИ становится не просто инструментом, а коллегой. Не идеальным — ошибающимся, иногда странно мыслящим, но коллегой. И как с любым коллегой, с ним нужно уметь разговаривать, проверять его работу, понимать его логику.
Самый важный навык 2026 года — не prompt engineering. Не fine-tuning. Не развёртывание моделей. А умение вести диалог с reasoning-системой. Задавать правильные вопросы. Проверять цепочки рассуждений. Находить слабые места в логике.
Это уже не про технологии. Это про критическое мышление. Ирония в том, что чтобы работать с искусственным интеллектом, нам понадобилось развивать собственный.