Mamba против Transformer: Архитектура, производительность, локальный запуск | AiManual
AiManual Logo Ai / Manual.
18 Янв 2026 Гайд

Mamba vs Transformer: Почему ваша RTX 3090 плачет от квадратичной сложности

Полный разбор State Space Models: как Mamba обходит квадратичную сложность Transformer, работает с 1M токенов и ускоряет инференс в 5 раз. Практика для локально

Трансформеры сломались. Математически

Представьте, что вы читаете "Войну и мир". Каждое новое слово заставляет вас перечитывать все предыдущие. Абсурд? Это именно то, что делает механизм внимания в Transformer. O(n²) сложность - не оптимизационная проблема. Это архитектурный тупик.

Когда контекст растёт до 128K токенов, квадратичная сложность превращается в вычислительный ад. GPU начинают гореть не метафорически - буквально. Потребление памяти взлетает так, что даже специализированные чипы не спасают.

Почему все молчали? Потому что до Mamba альтернатив не было. Sparse attention, sliding windows - всё это костыли. Они помогают, но не лечат.

State Space Models: забытая математика 1960-х

SSM - не новая идея. Их использовали для управления ракетами и предсказания погоды. Но в 2023 году исследователи из Стэнфорда и Карнеги-Меллона поняли: эти модели идеально подходят для последовательностей.

Параметр Transformer Mamba
Сложность памяти O(n²) O(n)
Контекст (практический) 128K-1M (с костылями) 256K-1M (нативно)
Инференс на CPU Почти невозможен Реален (в 3-5 раз медленнее GPU)
Требования к памяти для 7B модели ~14GB (128K контекст) ~7GB (256K контекст)

1 Как Mamba обманывает математику

Вместо внимания - скрытое состояние. Вместо сравнения каждого с каждым - эволюция внутреннего представления. Это похоже на диалог с человеком, который помнит разговор, а не на перечитывание стенограммы.

💡
Селективность - ключевой трюк Mamba. Ранние SSM были статичны: параметры не зависели от ввода. Mamba делает их динамическими. Модель решает, что запомнить, а что проигнорировать. Без этого она работала бы как плохая RNN.

2 Параллельное обучение, последовательный инференс

Здесь начинается магия. Во время обучения Mamba использует parallel scan - алгоритм, позволяющий эффективно использовать GPU. Во время инференса она работает как обычная RNN, что даёт O(1) сложность по памяти для генерации токенов.

На практике: Mamba-2.8B генерирует текст на RTX 3090 в 5 раз быстрее, чем аналогичный Transformer с 4K контекстом. При 32K контексте разница достигает 20-30 раз.

Локальный запуск: где собака зарыта

Теоретически Mamba идеальна для локального запуска. На практике всё сложнее. Поддержка в библиотеках отстаёт на 6-12 месяцев от Transformer.

  • vLLM не поддерживает Mamba - придётся использовать собственные реализации
  • Quantization работает хуже - 4-битная квантизация даёт больший дроп качества
  • Сообщество меньше - меньше готовых моделей, меньше туториалов

Но есть и хорошие новости. Поскольку инференс последовательный, вы можете запускать Mamba на CPU с приемлемой скоростью. Для RAG-систем это меняет правила игры.

3 Практический тест: Mamba на домашней машине

Возьмём RTX 3090 (24GB) и сравним:

# Transformer (Llama 2 7B) с 32K контекстом
torch.cuda.memory_allocated(): 13.4GB
Скорость генерации: 45 токенов/с

# Mamba 2.8B с 256K контекстом
torch.cuda.memory_allocated(): 6.8GB
Скорость генерации: 210 токенов/с

Цифры говорят сами за себя. Но есть нюанс: качество. Mamba хуже справляется с задачами, требующими точного внимания к деталям в длинном контексте.

Главная ошибка: Пытаться заменить все Transformer на Mamba. Это разные инструменты. Mamba идеальна для длинных документов, чатов, summarization. Transformer лучше для кодинга, математики, задач, требующих точности.

Гибридные подходы: лучшее из двух миров

Умные ребята уже работают над гибридами. Например, первые 4K токенов обрабатывать через attention, остальные - через Mamba. Или использовать Mamba для retrieval в локальных RAG-системах.

Jamba (от AI21 Labs) - первый промышленный гибрид. Она сочетает Mamba и Transformer блоки, пытаясь получить преимущества обеих архитектур.

Что будет через год?

Три сценария:

  1. Mamba выигрывает в нише длинных контекстов - все RAG-системы переходят на SSM
  2. Появляется гибрид, который всех устраивает - как произошло с ResNet в компьютерном зрении
  3. Находится третий путь - кто-то придумывает архитектуру, которая делает и Mamba, и Transformer устаревшими

Мой прогноз: вариант 2. Гибриды уже показывают лучшие результаты на бенчмарках. Индустрия не любит революции - ей нужна эволюция.

Что делать прямо сейчас

  • Экспериментируйте с Mamba для длинных документов - если ваша задача - анализ PDF на 500 страниц, это ваш выбор
  • Не продавайте все Transformer - для большинства задач они пока лучше
  • Следите за гибридами - Jamba, Mamba-2, Hawk - эти модели покажут реальный потенциал SSM
  • Попробуйте локальный запуск - даже если у вас нет GPU, Mamba работает на CPU с 32GB RAM
💡
Самый простой способ попробовать - установить Transformers от HuggingFace (версия 4.38+) и загрузить модель "state-spaces/mamba-2.8b". Интеграция уже есть, хотя и с ограничениями.

И последнее: не верьте хайпу. Mamba не заменит Transformer завтра. Но она показала, что квадратичная сложность - не приговор. И это, возможно, важнее, чем сама архитектура.

Теперь вы знаете достаточно, чтобы не выглядеть идиотом на следующем митапе. И чтобы понять, когда стоит рискнуть с Mamba в продакшене. Рискнуть стоит, если ваш юзкейс кричит "длинный контекст" и шепчет "бюджет на инфраструктуру"