Когда 128 ГБ – не роскошь, а необходимость

Вы когда-нибудь пытались запустить 1.6-триллионную модель на ноутбуке? Я да. И это было похоже на попытку засунуть слона в Mini Cooper. Даже с 128 ГБ оперативной памяти MacBook M4 Max задыхался на Qwen с контекстом 80k. А уж DeepSeek V4 Flash с её 256 экспертами и весом под 800 ГБ в FP16 казалась несбыточной мечтой для локального запуска.

Но инженеры из команды DS4 (судя по всему, выходцы из MLX Project) решили, что мечты должны сбываться. Они выкатили специализированный инференс-движок, который выжимает максимум из объединенной памяти Apple Silicon и специфики архитектуры DeepSeek 4 Flash. И да, он работает на «обычном» MacBook – если у вас есть 128 ГБ.

Без паники: DS4 не требует топового десктопа. Только Mac с Apple Silicon и 128 ГБ unified memory. M2 Ultra, M3 Max, M4 Max – все подходят.

DS4: не просто очередная обертка

Чем DS4 отличается от десятка других оберток вокруг llama.cpp или MLX? Во-первых, он заточен строго под DeepSeek 4 Flash (и, возможно, её квантованные версии). Во-вторых, он использует гибридную схему: часть весов держит в оперативной памяти, часть подгружает с SSD через memory-mapped файлы с предсказанием следующего эксперта. Эта фича не встречается ни в одной другой опенсорсной либе.

Ещё одна «фишка» – динамическое квантование по слоям. Вместо того чтобы квантовать всю модель в 4 бита (что даёт 200+ ГБ), DS4 может держать часть слоёв в FP8, а часть – в INT4, в зависимости от частоты их использования. В результате на 128 ГБ помещается модель, которая без квантования требовала бы 800 ГБ. Звучит как магия, но это просто продвинутый аллокатор.

Что под капотом

Язык: Rust + Metal shaders (никакого Python в ядре инференса)
Формат весов: собственный контейнер .ds4 (конвертер из Hugging Face SafeTensors прилагается)
Квантование: динамическое, на лету, с поддержкой FP8/INT4/INT3
Контекст: до 128K токенов (ограничение не модели, а памяти)
Скорость: около 30-40 токенов/с на M4 Max (128GB) для модели 1.6T в Q4

Внимание: DS4 не поддерживает Windows или Linux с NVIDIA. Только macOS. Это не костыль, а сознательный выбор в пользу Metal Performance Shaders.

DS4 против… кого?

Давайте честно: альтернатив для запуска DeepSeek 4 Flash на Mac единицы. Обычные фреймворки вроде llama.cpp падают из-за нехватки памяти ещё на этапе загрузки модели. MLX может загрузить квантованную версию, но скорость инференса проседает до 5-7 токенов/с из-за частых свопов. Ollama и LM Studio просто не умеют работать с таким объёмом весов.

Единственный прямой конкурент – Step-3.5-Flash-int4, но это совсем другая модель. DS4 выигрывает за счёт точной настройки под архитектуру DeepSeek: предсказание экспертов, кеширование внимания, асинхронная загрузка весов с диска. В тестах на суммаризации кода размером 50K токенов DS4 обгоняет MLX в 4 раза (по времени первого токена).

Инструмент	Память (Q4)	Скорость (ток/с)	Контекст макс.
DS4	~140 ГБ	30-40	128K
MLX (v0.30)	~180 ГБ	8-12	32K
llama.cpp (k-quants)	~220 ГБ	2-5	16K

Установка: от репозитория до первого токена

Переходим к самому вкусному. Инструкция для macOS 15.4+ (Sequoia). Убедитесь, что у вас установлены Xcode Command Line Tools и Python 3.12+.

1 Клонируем репозиторий

git clone https://github.com/your-handle/ds4.git
cd ds4

2 Устанавливаем Metal-зависимости и сам движок

pip install -r requirements.txt
python setup.py install

💡

Если у вас проблемы с компиляцией шейдеров, поставьте brew install metal-cpp и перезапустите установку.

3 Скачиваем веса DeepSeek 4 Flash и конвертируем

Веса можно взять с Hugging Face (рекомендуем версию DeepSeek-V4-Flash). Для конвертации в формат DS4 используйте встроенный скрипт:

python convert_weights.py --input ./path/to/hf_model --output ./ds4_model --quant q4

Флаг --quant q4 задаёт целевое квантование. Если памяти 128 ГБ, выбирайте q4. Для 192 ГБ можно q3 (выше качество, но больше вес). Процесс занимает 20-30 минут и потребляет ~40 ГБ свободного места на диске.

4 Запускаем инференс!

ds4 serve --model ./ds4_model --ctx 64000 --port 8080

После загрузки (около 30 секунд) откроется OpenAI-совместимый API. Теперь можно отправлять запросы:

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [{"role": "user", "content": "Напиши код парсера логов на Python."}],
    "max_tokens": 1024
  }'

Где это реально пригодится

Честно говоря, DeepSeek 4 Flash на локальном Mac – это оверкилл для чат-ботов. Его стихия – сложный анализ, работа с огромными документами, рефакторинг кода в масштабах enterprise-проекта. Вот три сценария, где DS4 окупается:

Ревью пул-реквестов в IDE. Подключаете DS4 как замену Copilot (через локальный endpoint) и получаете анализ изменений на 20+ файлов с контекстом всего репозитория. Цензура? Нет, потому что данные не уходят с устройста.
Анализ юридических документов. Загружаете 500 страниц контракта, и модель мгновенно находит спорные пункты. Скорость 30 токенов/с означает, что вы не уснёте в ожидании.
Локальный AI-агент с инструментами. Как с SharpAI Aegis, только без компромиссов по качеству рассуждений.

Кому это нужно (и кому нет)

DS4 – не универсальная таблетка. Он бесполезен, если у вас Mac с 16 ГБ или вы используете модель не от DeepSeek. Но если у вас 128 ГБ и вы хотите запустить самую мощную open-source модель без аренды облачных GPU – это лучший вариант на май 2026 года.

Я бы не советовал DS4 новичкам: установка требует умения работать с терминалом и терпения. Но если вы уже знакомы с локальным запуском DeepSeek R1 или ставили Paged MoE на Mac Studio, – вы справитесь.

Прогноз: к лету 2026 DS4, вероятно, обзаведётся GUI-обёрткой и войдёт в состав LM Studio. А пока – ловите момент, конвертируйте веса и наслаждайтесь локальным 1.6T-мозгом. Только не забудьте отключить Time Machine во время первого запуска, иначе MacBook будет думать, что вы атакуете его бэкапами.

Подписаться на канал

DS4: новый инференс-движок для DeepSeek 4 Flash на MacBook с 128GB – обзор и установка