Когда бенчмарки врут, а продакшн плачет
У каждой LLM есть зона комфорта. Для английского и кода - рай. Для русского с его падежами, склонениями и "свободным порядком слов" - ад. В 2026 году мы привыкли к бенчмаркам где модели гоняют на MMLU или HumanEval, но как только дело доходит до реальных русскоязычных данных — начинается пляска с бубном. DeepSeek V4 позиционируется как "китайский ответ GPT-5, который научился думать как сеньор", а Claude Sonnet 4.6 — как "модель, заставившая забыть про GPT-5". Обе хороши на бумаге. Но кто вывезет тикет поддержки в стиле "здрасти не работает кнопка, ченить сделайте"?
Я прогнал обе модели через 50 реальных задач: извлечение данных из неструктурированного текста, классификация инцидентов, расчёты стоимости доставки, генерация SQL-запросов по русскому описанию и парсинг реквизитов. Цифры ниже. Кое-что меня удивило.
Как я ломал нейросети
Методика простая, как лом. Взял 50 датасетов (по 10-20 примеров каждый), разбил на 4 группы:
- Извлечение данных (20 задач) - вытащить ФИО, ИНН, сумму, дату из "шапок" писем, скан-копий, чатов техподдержки. Грязные данные с опечатками, сокращениями, разным регистром.
- Классификация (15 задач) - определить тип обращения: "претензия", "вопрос по функционалу", "ошибка в биллинге". С русским текстом в стиле "опять этот ваш счет не пришел".
- Кодовые расчёты (10 задач) - написать Python/SQL по описанию на русском: "посчитай сумму товаров в корзине, где цена больше 1000 рублей, сгруппируй по категориям".
- Специфический русский (5 задач) - работа с датами типа "12 марта 2026 года", падежные окончания в адресах, генерация правильных ответов в "мужском/женском" роде.
Оценка: точность (качество извлечения/классификации), затраты (токены + цена за запрос), скорость. DeepSeek V4 брал через API (статья про DeepSeek V4), Claude Sonnet 4.6 — тоже через API (разбор Claude Sonnet 4.6).
Цифры без прикрас
| Группа задач | DeepSeek V4 | Claude Sonnet 4.6 |
|---|---|---|
| Извлечение данных | 84.3% | 92.7% |
| Классификация | 79.1% | 91.0% |
| Кодовые расчёты | 88.2% | 90.4% |
| Специфический русский | 72.5% | 94.0% |
| Общая точность | 83.5% | 91.8% |
DeepSeek берёт ценой и скоростью: он дешевле в 3-4 раза и отвечает быстрее. Но цена оборачивается грязью на выходе. Особенно больно — специфический русский. Пример: задача "извлеки дату из строки 'отгрузим 15.04.2026'". Обе модели справились. Но когда я сунул "отгрузим 15 апреля 2026 года" — DeepSeek в 4 из 10 случаев выдавал "15 апреля 2026" без года или "15/04/2026" с перепутанными месяцем и днём. Claude ошибся один раз.
Классический провал DeepSeek V4: в задаче "определи тип обращения: 'чё за хрень, я уже 3 раза отправлял, а деньги не пришли'" модель отнесла это к "технической ошибке" вместо "претензия по биллингу". Claude — правильно. Разница в понимании подтекста.
Где DeepSeek неожиданно силён
Генерация кода. Да, на Python и SQL DeepSeek V4 почти не уступает Claude. Я дал задачу: "Напиши функцию, которая принимает список заказов с полями 'сумма', 'категория', 'дата' и возвращает средний чек по каждой категории за последние 7 дней". Обе модели выдали рабочий код. DeepSeek использовал defaultdict, Claude — Counter. Разница стиля, не качества. Но вот тест на обработку ошибок: я подсунул некорректный формат даты. DeepSeek упал с ValueError, Claude аккуратно обернул в try-except. Мелочь, но для продакшна — критично.
Ещё момент: DeepSeek V4 отлично справляется с длинными документами (контекст 128k против 200k у Claude). На задаче извлечения данных из 50-страничного PDF-лога (русский язык) DeepSeek не потерял нить, хотя пробелы в падежах остались. Claude быстрее утомляется и начинает галлюцинировать после 20 страниц. Локальная версия DeepSeek на эту задачу вообще легла — но это другая история.
Провалы на ровном месте: русская бюрократия
Самая злая задача: извлечение ИНН из текста "ИНН 7712345678 / КПП 771001001". Казалось бы, плёвое дело. DeepSeek в 2 из 20 случаев выдёргивал ИНН вместе с КПП ("7712345678771001001"). Claude — ни одной ошибки. Ещё смешнее: текст "паспорт 45 06 123456 выдан ОВД "Люблино"". DeepSeek иногда выхватывал "45 06 123456" как номер паспорта (правильно), но пару раз приписал "ОВД Люблино" внутрь номера. Мелко, но подобные ошибки убивают скоринг.
Вывод простой: китайское ядро DeepSeek великолепно обрабатывает структуры, но гибкость русского синтаксиса ломает его регулярки. Claude, обученный на большем объёме русскоязычного контента (включая худлит и законы), лучше держит контекст словоизменений.
Что говорит цена и скорость
| Параметр | DeepSeek V4 | Claude Sonnet 4.6 |
|---|---|---|
| Цена за 1M входных токенов | $0.80 | $2.50 |
| Цена за 1M выходных токенов | $2.40 | $10.00 |
| Среднее время ответа (1 токен) | 0.35s | 0.72s |
На 50 задачах (каждая генерировала ~300 выходных токенов) DeepSeek стоил $0.036, Claude — $0.15. Разница в 4 раза. Если вы обрабатываете миллионы запросов в день — DeepSeek может окупить низкое качество ручной фильтрацией. Но если точность критична (финансы, медицина, юристы) — Claude дешевле обходится без доработок.
Практический вердикт: не выбирайте, а комбинируйте
Я не буду говорить "выбирайте Claude" или "берите DeepSeek". Тупая дихотомия не работает. Смотрите:
- DeepSeek V4 — для массовой фильтрации, где допустима погрешность 10-15%. Генерация кода, шаблонная классификация, извлечение из жёстко структурированных данных. Экономия на объёмах.
- Claude Sonnet 4.6 — для тонкой работы с русским: претензии, договоры, реквизиты. Там где за каждую ошибку бьют рублём.
- Гибрид — пропускать первичную обработку через DeepSeek (дёшево, быстро), а подозрительные случаи (confidence < 0.7) отдавать Claude. Это даёт +2% точности при всего +15% затрат.
Кстати, тесты кодирующих агентов на слабом железе показывают, что DeepSeek V4 в связке с агентами даёт ускорение, но те же проблемы с русским остаются.
Последний совет (без банальностей)
Не доверяйте ни одной модели на русском без отдельного тест-сьюта из вашей предметной области. Бенчмарки на общих датасетах — это балет. А продакшн — это свалка. Соберите 100 примеров своих данных, протяните через обе модели и посчитайте F1. Потом решайте. И не выкидывайте DeepSeek: к концу 2026 года он с высокой вероятностью подтянет русский, и тогда ценовой аргумент станет убийственным. Сейчас же — Claude Sonnet 4.6 остаётся королём русского текста, но DeepSeek уже дышит в спину.