CUDA 13.3 исправляет gibberish локальных LLM и совместимость с Unsloth

Шёпот мёртвого нейрона

Знаете это чувство, когда вы запускаете локальную LLM на новом RTX 5090, а она вместо связного ответа выдаёт "антрекота антропоморфного трансцендентного тритона"? Именно так выглядит проклятие gibberish — синдром бессмысленной генерации, который последние полгода сводил с ума владельцев Ada Lovelace и Blackwell-карт. Но 2 июня 2026 года NVIDIA наконец-то выкатила CUDA 13.3, и, судя по воплям восторга на форумах, зверь повержен.

Если вы всё ещё мучаетесь с бессвязными ответами и думаете, что модель криво обучилась — скорее всего, дело не в ней, а в CUDA. Проблема проявлялась случайно: 1 раз из 10, потом 3 из 10, а дальше модель просто сходила с ума.

Откуда росли ноги у этого кошмара

Корень зла — в новой организации работы с тензорами в архитектурах Ada Lovelace и Blackwell. NVIDIA переписала часть ядер для работы с FP8 и 4-битной квантизацией, и где-то в слоях CUB и NCCL закралась ошибка с когерентностью кэша L2. При высоких нагрузках — например, при последовательной генерации с batch size 1 — данные из регистров возвращались в неверном порядке. Unsloth, легендарная библиотека для сверхбыстрого обучения, первой забила тревогу ещё в апреле 2026, опубликовав issue с 200 комментариями. И вот, спустя месяц, — патч.

Параметр	До CUDA 13.3	После CUDA 13.3
Вероятность gibberish	до 40% на Blackwell	<0.1%
Совместимость с Unsloth 2026.06.01	требовался флаг --no-cublaslt	полная из коробки
Влияние на скорость генерации	базовый	+3-5% (оптимизация warp)

Unsloth: первый пострадавший и первый спасённый

Даниэль Хан, создатель Unsloth, уже на следующий день после релиза CUDA 13.3 выложил тестовый билд. Результаты — нулевой gibberish на восьми RTX 5090 в конфигурации с тензорным параллелизмом. Для тех, кто ещё не знаком с тем, как заставить несколько видеокарт работать слаженно, советую глянуть статью про тензорный параллелизм в llama.cpp — там как раз разбирается, почему две карты могут быть эффективнее одной, но только при правильном софте.

Более того, Unsloth 2026.06.01 (вышел 10 июня) уже по умолчанию использует cuBLASLT версии 13.3 и не требует ручных костылей. Это снимает проблему, описанную в нашем гайде по типичным ошибкам локального запуска, где мы рекомендовали отключать новые фичи CUDA.

💡

Если вы не знаете, обновлять ли CUDA — ответ однозначный да. Но не забудьте скачать последний драйвер NVIDIA (v570.42 для Windows, v555.80 для Linux), иначе новая тулкит не активирует ядра Blackwell.

Что дальше: тихая эволюция или новая подстава?

NVIDIA, конечно, молодцы, что выпустили фикс так быстро — всего через месяц после первого массового репорта. Но осадочек остался: как такой баг вообще прошёл QA? Если вы запускаете локальные LLM на старых RTX 30-й серии — вас проблема не касалась, для остальных — теперь рай.

Лично я рекомендую не просто обновить CUDA, а переустановить её с полным сбросом кэша компиляции. Иначе библиотеки вроде llama.cpp могут подхватить старые бинарники. А ещё — сразу проверьте совместимость с вашим LLM-фреймворком: Unsloth, ExLlamaV3, vLLM — все уже зарелизили обновления.

Хотите собрать бюджетную станцию для AI-агентов? Купить RTX 5090 сейчас самый разумный вариант — цены на фоне выхода Blackwell чуть упали, а с CUDA 13.3 карта раскрывается полностью.

Мой прогноз: после этого фикса Unsloth станет стандартом де-факто для тонкой настройки локальных моделей, а продажи Blackwell-карт для AI-энтузиастов подскочат на 20% к сентябрю. Но следите за новыми версиями — NVIDIA уже анонсировала CUDA 14.0 на 2027, и, бьюсь об заклад, без новых багов не обойдётся.

Подписаться на канал

CUDA 13.3 против кошмара gibberish: локальные LLM наконец-то заговорили правильно

Шёпот мёртвого нейрона

Откуда росли ноги у этого кошмара

Unsloth: первый пострадавший и первый спасённый

Что дальше: тихая эволюция или новая подстава?

Подписывайтесь на наш канал!