WeDLM Tencent: диффузионные языковые модели, ускорение 3-10 раз на CPU/GPU | AiManual
AiManual Logo Ai / Manual.
10 Янв 2026 Гайд

Архитектура WeDLM от Tencent: как диффузионные модели ускоряют генерацию текста в 3-10 раз на слабом железе

Как архитектура WeDLM от Tencent генерирует несколько токенов за один проход, ускоряя LLM на слабом железе. Multi-token prediction, DDR5 память, гибрид CPU/GPU.

Вам когда-нибудь приходилось ждать ответа от локальной LLM на ноутбуке с 16 ГБ оперативки? Тот момент, когда индикатор загрузки ползет, а вы уже успеваете выпить кофе, проверить почту и подумать о смысле жизни? Tencent решил эту проблему радикально — они взяли диффузионные модели, которые раньше были прерогативой генерации изображений, и применили их к тексту. Результат — ускорение генерации в 3-10 раз на том же самом железе.

Почему авторегрессия тормозит все, что можно

Традиционные LLM работают по принципу «один токен за раз». Сгенерировали слово «привет» — ждем, пока модель вычислит «мир». Потом «мир» — ждем «!». Это как печатать на клавиатуре одним пальцем, глядя на экран после каждой буквы. Каждый новый токен требует полного прохода через все слои модели и обновления KV-cache — той самой памяти, где хранится контекст.

KV-cache — главный пожиратель памяти в авторегрессионных моделях. Для генерации 1000 токенов в модели с 32 слоями и размером эмбеддинга 4096 вам понадобится около 1 ГБ только под кэш. На слабом железе это убийственно.

Когда вы запускаете Qwen3-30B на 12 ГБ VRAM, половина памяти уходит на этот самый кэш. Вы не генерируете текст — вы ждете, пока память перекладывает данные из одного места в другое. Tencent посмотрел на это и сказал: «А что если генерировать сразу несколько токенов за один проход?»

Диффузия вместо авторегрессии: как это вообще работает?

Если авторегрессия — это последовательное угадывание следующего слова, то диффузия — это одновременная работа со всей последовательностью. Представьте, что вместо того чтобы строить дом кирпичик за кирпичиком, вы сначала набрасываете грубый эскиз всего здания, а потом постепенно его детализируете.

Архитектура Скорость генерации Потребление памяти Качество текста
Авторегрессия (GPT, LLaMA) 1x (база) Высокое (растет с контекстом) Отличное
Диффузия (WeDLM) 3-10x Стабильное (не зависит от длины) Сопоставимое

WeDLM использует multi-token prediction — модель учится предсказывать не один следующий токен, а сразу несколько. Вместо «привет → мир → !» она предсказывает «привет мир !» как единый блок. Это как если бы ваш llama.cpp внезапно научился генерировать целые предложения за один проход.

Секретное оружие: DDR5 память и гибрид CPU/GPU

Самое интересное начинается, когда смотришь на требования к железу. Tencent оптимизировал WeDLM под системы с ограниченной VRAM, но с быстрой оперативной памятью. Пока все бегают за дорогими видеокартами, они сделали ставку на то, что есть у большинства — DDR5.

💡
DDR5 против DDR4 в контексте WeDLM — это не просто «быстрее на 10%». Пропускная способность DDR5 (до 51.2 ГБ/с) позволяет эффективно использовать CPU для части вычислений, разгружая GPU. На практике это значит, что вы можете запустить модель, которая раньше требовала 24 ГБ VRAM, на системе с 8 ГБ видеопамяти и 32 ГБ DDR5.

Архитектура работает так: легкие слои выполняются на CPU с использованием быстрой оперативной памяти, тяжелые — на GPU. Это не просто «закинуть все в оперативку», а интеллектуальное распределение нагрузки. Если сравнивать с NVIDIA AETHER-X, который ускоряет инференс в 4.9 раза, но требует специфического железа, WeDLM дает сопоставимое ускорение на потребительских компонентах.

Multi-token prediction: магия или математика?

Технически multi-token prediction реализован через модифицированные attention-механизмы. Обычный self-attention смотрит на все предыдущие токены, чтобы предсказать следующий. WeDLM расширяет это до «предсказания блока» — модель учится коррелировать не только последовательные токены, но и группы токенов.

Не путайте с простым увеличением batch size. Batch size — это параллельная обработка разных запросов. Multi-token prediction — это параллельная генерация внутри одного запроса. Разница как между «обслуживать 10 клиентов одновременно» и «одному клиенту выдать 10 товаров за одну транзакцию».

На практике это выглядит так: вместо 100 последовательных вызовов модели для генерации 100 токенов, WeDLM делает 10-20 вызовов, генерируя по 5-10 токенов за раз. Математически сложнее? Да. Но вычислительно эффективнее, потому что уменьшаются накладные расходы на передачу данных между CPU и GPU.

KV-cache оптимизация: как Tencent победил главного врага

Помните, как в TensorRT-LLM борются с KV-cache через квантование и сжатие? Tencent пошел другим путем — они просто уменьшили зависимость от этого кэша. В диффузионных моделях контекст обрабатывается иначе: вместо того чтобы накапливать историю токенов, модель работает с «состоянием диффузии», которое занимает на порядок меньше памяти.

  • Традиционный KV-cache: растет линейно с длиной контекста
  • WeDLM state: фиксированный размер независимо от контекста
  • Экономия памяти: до 70% на длинных последовательностях

Это особенно важно для систем с ограниченной памятью. Когда вы строите локальный RAG-пайплайн на RTX 2060, каждый мегабайт VRAM на счету. WeDLM позволяет держать в памяти больше контекста или использовать более крупную модель.

Реальные цифры: что обещают и что получается

Tencent заявляет ускорение в 6 раз по сравнению с Qwen на математических задачах. Но математика — это идеальный случай, где multi-token prediction работает лучше всего (формулы имеют предсказуемую структуру). На обычном тексте ускорение скромнее — 3-4 раза. Но даже это революция.

Сценарий Обычная LLM (токен/с) WeDLM (токен/с) Ускорение
Математические задачи (CPU) 12 72 6x
Текстовый диалог (GPU 8GB) 24 85 3.5x
Кодогенерация (гибрид) 18 65 3.6x

Что это значит на практике? Если раньше ваш ноутбук с 24 ГБ VRAM генерировал ответ за 10 секунд, теперь он будет делать это за 2-3 секунды. Разница между «терпимо» и «мгновенно».

Где подвох? (Спойлер: он есть)

Идеальных технологий не бывает. Multi-token prediction требует специального обучения моделей. Вы не можете взять обычную LLaMA и превратить ее в WeDLM — нужна архитектурная переделка и переобучение на специальных данных. Tencent пока не открывает исходники, только API.

Качество генерации на творческих задачах (поэзия, художественный текст) пока уступает авторегрессионным моделям. Диффузия лучше справляется с структурированными данными — код, математика, технические тексты. Художественную прозу она генерирует более «шаблонно».

Еще один нюанс — latency первого токена. В авторегрессионных моделях первый токен появляется быстро, последующие — медленно. В WeDLM все наоборот: модель дольше «думает» над всем блоком, но потом выдает его сразу. Для интерактивных чатов это может создавать ощущение задержки.

Стоит ли переходить на диффузию прямо сейчас?

Если вы работаете с математикой, кодом или технической документацией — определенно да. Ускорение в 3-6 раз меняет пользовательский опыт кардинально. Если ваша задача — творческое письмо или диалоги, лучше подождать следующих версий.

Интересно сравнить подход Tencent с другими методами ускорения. Layer pruning дает 30% ускорения ценой потери качества. Квантование — 2-3 раза, но с артефактами. WeDLM предлагает другой компромисс: не режем модель, не теряем точность, но меняем саму архитектуру генерации.

Что будет дальше? Скорее всего, гибридные подходы. Авторегрессия для первых токенов (чтобы снизить latency), диффузия — для последующих (чтобы увеличить throughput). Как в Tencent HY-MT 1.5, где совмещают разные техники для разных частей задачи.

Практический совет: как подготовить инфраструктуру

Если планируете экспериментировать с WeDLM (когда появится opensource):

  1. Апгрейд оперативной памяти до DDR5. Разница с DDR4 в этом сценарии — 40-50% производительности.
  2. Выделите быстрый NVMe SSD под своп. WeDLM активно использует CPU, и быстрый своп критически важен.
  3. Настройте смешанную точность вычислений. FP16 на GPU, INT8 на CPU — идеальный баланс для гибридного режима.
  4. Оптимизируйте передачу данных между CPU и GPU. PCIe 4.0 — минимальное требование, PCIe 5.0 — желательно.

И главное — не ждите чудес на старом железе. Архитектура ускоряет генерацию, но не отменяет законы физики. Если у вас ноутбук 2018 года с DDR4 и медленным SSD, вы получите ускорение, но не в 10 раз.

WeDLM — это не просто еще одна «оптимизация». Это смена парадигмы. Вместо того чтобы бороться с ограничениями авторегрессии, Tencent предложил альтернативу. Как будет развиваться эта история? Посмотрим. Но уже сейчас ясно: эпоха «одного токена за раз» подходит к концу. Будущее за параллельной генерацией, и WeDLM показывает, как это будущее может выглядеть на обычном железе.