Слив на форуме: как 800 гигабайт секретов выложили в общий доступ
Еще вчера Seedance 2.0 была мифом, ходячим слухом в узких кругах. Ее называли "инструктабельным Claude Code", но на стероидах. А сегодня, 25 февраля 2026, кто-то под ником "tensor_leaker" вывалил на приватный форум 4chan полный дамп весов. Все 800 гигабайт в формате безопасных тензоров (safetensors). Архив разлетелся по торрентам за три часа.
Никакой корпорации за моделью не стоит. Точнее, не стояло. Судя по структуре кода и стилю документов, Seedance 2.0 - продукт закрытой исследовательской группы, финансируемой через офшоры. Они работали над ней почти год. Модель оказалась гибридной: 530 миллиардов параметров, архитектура MoE (Mixture of Experts) с 16 экспертами, каждый - плотная сеть на 60B. Контекст - 256 тысяч токенов. И все это обучено на синтетических данных, сгенерированных другими ИИ.
Важно: На момент публикации (26.02.2026) официального подтверждения от создателей Seedance 2.0 нет. Использование слитых весов может нарушать лицензионные соглашения, которых, впрочем, никто не видел.
96 GB VRAM или ничего: почему ваш RTX 5090 - теперь костыль
Первые же попытки запустить модель уперлись в жестокую реальность. Даже с последними оптимизациями в llama.cpp версии 0.14.2 (релиз от февраля 2026), для загрузки Seedance 2.0 в формате FP16 требуется примерно 96 гигабайт видеопамяти. Не оперативной. Именно VRAM.
Вот что это значит на практике:
- Две топовые RTX 5090 с 48 GB каждая в режиме NVLink - это только стартовая конфигурация.
- Одна профессиональная карта типа NVIDIA B200 (120 GB) справится, но ее цена сравнима с бюджетом небольшой страны.
- Большинство энтузиастов, которые радовались запуску "средних" 70B-моделей на своих системах, оказались за бортом. Наша статья про модели 20-80B теперь выглядит как инструкция для каменного века.
Квантование в режиме аврала: сообщество против физики
Как только стало ясно, что в "чистом" виде модель мертва для 99.9% пользователей, началась гонка. Цель - ужать Seedance 2.0 до размеров, которые потянет хотя бы одна карта с 24 GB VRAM.
Основные методы, которые тестируют прямо сейчас:
| Метод квантования | Целевой размер VRAM | Потери качества (предварительно) | Статус на 26.02.2026 |
|---|---|---|---|
| FP16 (оригинал) | ~96 GB | 0% | Работает на B200 / 2x5090 |
| GPTQ до 3-бит (новый алгоритм) | ~36 GB | Заметные на коде | Тестируется, есть артефакты |
| AWQ до 4-бит | ~48 GB | Минимальные | Самый стабильный вариант |
| GGUF Q2_K (через llama.cpp) | ~24 GB | Значительные, модель "тупеет" | Работает, но зачем? |
Проблема в том, что стандартные инструменты квантования, вроде AutoGPTQ, заточены под плотные архитектуры. Seedance 2.0 с ее MoE ломает шаблоны. Первые конвертированные версии либо не запускаются, либо выдают бред, либо падают с ошибками выделения памяти. Особенно страдают эксперты, отвечающие за математику и рассуждения.
Опытные калибровщики моделей советуют пока смотреть в сторону облачных решений. Аренда инстанса с B200 на час обойдется примерно в $12-15. Дешевле, чем покупать железо. Но это убивает всю идею локальности.
Что делать, если у вас нет дата-центра в гараже?
Пока гении квантуют гиганта, обычные пользователи могут сделать вот что:
Во-первых, не пытайтесь запустить это на чем попало. 96 GB VRAM - это не шутка. Если у вас система с "всего лишь" 48 GB, как у многих после апгрейда на 4090, даже не думайте. Вы получите ошибку `CUDA out of memory` быстрее, чем успеете прочитать этот абзац. У нас есть отдельный разбор этой боли для владельцев таких систем: Когда 48GB VRAM не хватает.
Во-вторых, присмотритесь к другим мощным, но более умеренным моделям. Тот же Nemotron 3 Nano 30B MoE дает фантастическое качество кода и помещается в 24 GB. Или вспомните про модели, которые мы называли "на конец света" - они проверены, стабильны и не требуют жертвоприношения видеокарты.
В-третьих, если очень хочется поиграть с архитектурой MoE, но без экстремальных требований, есть вариант с оффлоадом слоев на RAM. Да, это медленно. Но работает. Правда, для Seedance 2.0 даже с оффлоадом понадобится около 200 GB оперативной памяти. Настройка - адский квест, похожий на оптимизацию DeepSeek-V3.2, только в десять раз сложнее.
Прогноз от инсайдеров: первые более-менее стабильные квантованные версии Seedance 2.0 в формате AWQ 4-бит появятся через 5-7 дней. Они будут требовать 48-64 GB VRAM и, скорее всего, будут торрентиться с пометкой "experts_merged" - где все 16 экспертов сольют в 4 более крупных блока. Качество? Гадать рано.
Ирония в том, что утечка весов, которая должна была демократизировать доступ к супер-модели, на деле только подчеркнула пропасть между обладателями enterprise-железа и всеми остальными. Seedance 2.0 стала самым дорогим подарком, который невозможно использовать. Пока сообщество ломает голову над квантованием, создатели оригинальной модели, вероятно, просто пожимают плечами. Их следующий шаг - Seedance 3.0, который, если верить слухам, будет требовать HBM4e и 240 GB памяти. Надеюсь, к тому времени у нас хотя бы разберутся с текущим гигантом.
P.S. Если вы все же решитесь на авантюру и попробуете запустить Seedance 2.0 на потребительском железе, приготовьтесь к ошибкам вроде `'Unable to allocate ROCm0 buffer'`. Решения ищем здесь. Удачи. Она вам понадобится.