В чем главное отличие WeDLM от обычных LLM?

WeDLM использует диффузионную архитектуру и multi-token prediction, генерируя несколько токенов за один проход, тогда как обычные LLM работают авторегрессионно — по одному токену за раз.

На каком железе работает WeDLM?

Архитектура оптимизирована для гибридных систем CPU/GPU с быстрой оперативной памятью DDR5. Может работать на системах с ограниченной VRAM, используя CPU для части вычислений.

Какое ускорение дает WeDLM?

На математических задачах — до 6 раз, на обычном тексте — 3-4 раза по сравнению с авторегрессионными моделями аналогичного размера.

Есть ли у WeDLM недостатки?

Да: требует специального обучения моделей, latency первого токена выше, качество на творческих задачах (поэзия, художественный текст) пока уступает авторегрессионным моделям.

Можно ли использовать WeDLM с существующими моделями?

Нет, нужна архитектурная переделка и переобучение. Нельзя просто взять LLaMA или GPT и превратить в WeDLM без значительных изменений.

WeDLM Tencent: диффузионные языковые модели, ускорение 3-10 раз на CPU/GPU

Вам когда-нибудь приходилось ждать ответа от локальной LLM на ноутбуке с 16 ГБ оперативки? Тот момент, когда индикатор загрузки ползет, а вы уже успеваете выпить кофе, проверить почту и подумать о смысле жизни? Tencent решил эту проблему радикально — они взяли диффузионные модели, которые раньше были прерогативой генерации изображений, и применили их к тексту. Результат — ускорение генерации в 3-10 раз на том же самом железе.

Почему авторегрессия тормозит все, что можно

Традиционные LLM работают по принципу «один токен за раз». Сгенерировали слово «привет» — ждем, пока модель вычислит «мир». Потом «мир» — ждем «!». Это как печатать на клавиатуре одним пальцем, глядя на экран после каждой буквы. Каждый новый токен требует полного прохода через все слои модели и обновления KV-cache — той самой памяти, где хранится контекст.

KV-cache — главный пожиратель памяти в авторегрессионных моделях. Для генерации 1000 токенов в модели с 32 слоями и размером эмбеддинга 4096 вам понадобится около 1 ГБ только под кэш. На слабом железе это убийственно.

Когда вы запускаете Qwen3-30B на 12 ГБ VRAM, половина памяти уходит на этот самый кэш. Вы не генерируете текст — вы ждете, пока память перекладывает данные из одного места в другое. Tencent посмотрел на это и сказал: «А что если генерировать сразу несколько токенов за один проход?»

Диффузия вместо авторегрессии: как это вообще работает?

Если авторегрессия — это последовательное угадывание следующего слова, то диффузия — это одновременная работа со всей последовательностью. Представьте, что вместо того чтобы строить дом кирпичик за кирпичиком, вы сначала набрасываете грубый эскиз всего здания, а потом постепенно его детализируете.

Архитектура	Скорость генерации	Потребление памяти	Качество текста
Авторегрессия (GPT, LLaMA)	1x (база)	Высокое (растет с контекстом)	Отличное
Диффузия (WeDLM)	3-10x	Стабильное (не зависит от длины)	Сопоставимое

WeDLM использует multi-token prediction — модель учится предсказывать не один следующий токен, а сразу несколько. Вместо «привет → мир → !» она предсказывает «привет мир !» как единый блок. Это как если бы ваш llama.cpp внезапно научился генерировать целые предложения за один проход.

Секретное оружие: DDR5 память и гибрид CPU/GPU

Самое интересное начинается, когда смотришь на требования к железу. Tencent оптимизировал WeDLM под системы с ограниченной VRAM, но с быстрой оперативной памятью. Пока все бегают за дорогими видеокартами, они сделали ставку на то, что есть у большинства — DDR5.

💡

DDR5 против DDR4 в контексте WeDLM — это не просто «быстрее на 10%». Пропускная способность DDR5 (до 51.2 ГБ/с) позволяет эффективно использовать CPU для части вычислений, разгружая GPU. На практике это значит, что вы можете запустить модель, которая раньше требовала 24 ГБ VRAM, на системе с 8 ГБ видеопамяти и 32 ГБ DDR5.

Архитектура работает так: легкие слои выполняются на CPU с использованием быстрой оперативной памяти, тяжелые — на GPU. Это не просто «закинуть все в оперативку», а интеллектуальное распределение нагрузки. Если сравнивать с NVIDIA AETHER-X, который ускоряет инференс в 4.9 раза, но требует специфического железа, WeDLM дает сопоставимое ускорение на потребительских компонентах.

Multi-token prediction: магия или математика?

Технически multi-token prediction реализован через модифицированные attention-механизмы. Обычный self-attention смотрит на все предыдущие токены, чтобы предсказать следующий. WeDLM расширяет это до «предсказания блока» — модель учится коррелировать не только последовательные токены, но и группы токенов.

Не путайте с простым увеличением batch size. Batch size — это параллельная обработка разных запросов. Multi-token prediction — это параллельная генерация внутри одного запроса. Разница как между «обслуживать 10 клиентов одновременно» и «одному клиенту выдать 10 товаров за одну транзакцию».

На практике это выглядит так: вместо 100 последовательных вызовов модели для генерации 100 токенов, WeDLM делает 10-20 вызовов, генерируя по 5-10 токенов за раз. Математически сложнее? Да. Но вычислительно эффективнее, потому что уменьшаются накладные расходы на передачу данных между CPU и GPU.

KV-cache оптимизация: как Tencent победил главного врага

Помните, как в TensorRT-LLM борются с KV-cache через квантование и сжатие? Tencent пошел другим путем — они просто уменьшили зависимость от этого кэша. В диффузионных моделях контекст обрабатывается иначе: вместо того чтобы накапливать историю токенов, модель работает с «состоянием диффузии», которое занимает на порядок меньше памяти.

Традиционный KV-cache: растет линейно с длиной контекста
WeDLM state: фиксированный размер независимо от контекста
Экономия памяти: до 70% на длинных последовательностях

Это особенно важно для систем с ограниченной памятью. Когда вы строите локальный RAG-пайплайн на RTX 2060, каждый мегабайт VRAM на счету. WeDLM позволяет держать в памяти больше контекста или использовать более крупную модель.

Реальные цифры: что обещают и что получается

Tencent заявляет ускорение в 6 раз по сравнению с Qwen на математических задачах. Но математика — это идеальный случай, где multi-token prediction работает лучше всего (формулы имеют предсказуемую структуру). На обычном тексте ускорение скромнее — 3-4 раза. Но даже это революция.

Сценарий	Обычная LLM (токен/с)	WeDLM (токен/с)	Ускорение
Математические задачи (CPU)	12	72	6x
Текстовый диалог (GPU 8GB)	24	85	3.5x
Кодогенерация (гибрид)	18	65	3.6x

Что это значит на практике? Если раньше ваш ноутбук с 24 ГБ VRAM генерировал ответ за 10 секунд, теперь он будет делать это за 2-3 секунды. Разница между «терпимо» и «мгновенно».

Где подвох? (Спойлер: он есть)

Идеальных технологий не бывает. Multi-token prediction требует специального обучения моделей. Вы не можете взять обычную LLaMA и превратить ее в WeDLM — нужна архитектурная переделка и переобучение на специальных данных. Tencent пока не открывает исходники, только API.

Качество генерации на творческих задачах (поэзия, художественный текст) пока уступает авторегрессионным моделям. Диффузия лучше справляется с структурированными данными — код, математика, технические тексты. Художественную прозу она генерирует более «шаблонно».

Еще один нюанс — latency первого токена. В авторегрессионных моделях первый токен появляется быстро, последующие — медленно. В WeDLM все наоборот: модель дольше «думает» над всем блоком, но потом выдает его сразу. Для интерактивных чатов это может создавать ощущение задержки.

Стоит ли переходить на диффузию прямо сейчас?

Если вы работаете с математикой, кодом или технической документацией — определенно да. Ускорение в 3-6 раз меняет пользовательский опыт кардинально. Если ваша задача — творческое письмо или диалоги, лучше подождать следующих версий.

Интересно сравнить подход Tencent с другими методами ускорения. Layer pruning дает 30% ускорения ценой потери качества. Квантование — 2-3 раза, но с артефактами. WeDLM предлагает другой компромисс: не режем модель, не теряем точность, но меняем саму архитектуру генерации.

Что будет дальше? Скорее всего, гибридные подходы. Авторегрессия для первых токенов (чтобы снизить latency), диффузия — для последующих (чтобы увеличить throughput). Как в Tencent HY-MT 1.5, где совмещают разные техники для разных частей задачи.

Практический совет: как подготовить инфраструктуру

Если планируете экспериментировать с WeDLM (когда появится opensource):

Апгрейд оперативной памяти до DDR5. Разница с DDR4 в этом сценарии — 40-50% производительности.
Выделите быстрый NVMe SSD под своп. WeDLM активно использует CPU, и быстрый своп критически важен.
Настройте смешанную точность вычислений. FP16 на GPU, INT8 на CPU — идеальный баланс для гибридного режима.
Оптимизируйте передачу данных между CPU и GPU. PCIe 4.0 — минимальное требование, PCIe 5.0 — желательно.

И главное — не ждите чудес на старом железе. Архитектура ускоряет генерацию, но не отменяет законы физики. Если у вас ноутбук 2018 года с DDR4 и медленным SSD, вы получите ускорение, но не в 10 раз.

WeDLM — это не просто еще одна «оптимизация». Это смена парадигмы. Вместо того чтобы бороться с ограничениями авторегрессии, Tencent предложил альтернативу. Как будет развиваться эта история? Посмотрим. Но уже сейчас ясно: эпоха «одного токена за раз» подходит к концу. Будущее за параллельной генерацией, и WeDLM показывает, как это будущее может выглядеть на обычном железе.

Архитектура WeDLM от Tencent: как диффузионные модели ускоряют генерацию текста в 3-10 раз на слабом железе