Когда 128 ГБ – не роскошь, а необходимость
Вы когда-нибудь пытались запустить 1.6-триллионную модель на ноутбуке? Я да. И это было похоже на попытку засунуть слона в Mini Cooper. Даже с 128 ГБ оперативной памяти MacBook M4 Max задыхался на Qwen с контекстом 80k. А уж DeepSeek V4 Flash с её 256 экспертами и весом под 800 ГБ в FP16 казалась несбыточной мечтой для локального запуска.
Но инженеры из команды DS4 (судя по всему, выходцы из MLX Project) решили, что мечты должны сбываться. Они выкатили специализированный инференс-движок, который выжимает максимум из объединенной памяти Apple Silicon и специфики архитектуры DeepSeek 4 Flash. И да, он работает на «обычном» MacBook – если у вас есть 128 ГБ.
Без паники: DS4 не требует топового десктопа. Только Mac с Apple Silicon и 128 ГБ unified memory. M2 Ultra, M3 Max, M4 Max – все подходят.
DS4: не просто очередная обертка
Чем DS4 отличается от десятка других оберток вокруг llama.cpp или MLX? Во-первых, он заточен строго под DeepSeek 4 Flash (и, возможно, её квантованные версии). Во-вторых, он использует гибридную схему: часть весов держит в оперативной памяти, часть подгружает с SSD через memory-mapped файлы с предсказанием следующего эксперта. Эта фича не встречается ни в одной другой опенсорсной либе.
Ещё одна «фишка» – динамическое квантование по слоям. Вместо того чтобы квантовать всю модель в 4 бита (что даёт 200+ ГБ), DS4 может держать часть слоёв в FP8, а часть – в INT4, в зависимости от частоты их использования. В результате на 128 ГБ помещается модель, которая без квантования требовала бы 800 ГБ. Звучит как магия, но это просто продвинутый аллокатор.
Что под капотом
- Язык: Rust + Metal shaders (никакого Python в ядре инференса)
- Формат весов: собственный контейнер
.ds4(конвертер из Hugging Face SafeTensors прилагается) - Квантование: динамическое, на лету, с поддержкой FP8/INT4/INT3
- Контекст: до 128K токенов (ограничение не модели, а памяти)
- Скорость: около 30-40 токенов/с на M4 Max (128GB) для модели 1.6T в Q4
Внимание: DS4 не поддерживает Windows или Linux с NVIDIA. Только macOS. Это не костыль, а сознательный выбор в пользу Metal Performance Shaders.
DS4 против… кого?
Давайте честно: альтернатив для запуска DeepSeek 4 Flash на Mac единицы. Обычные фреймворки вроде llama.cpp падают из-за нехватки памяти ещё на этапе загрузки модели. MLX может загрузить квантованную версию, но скорость инференса проседает до 5-7 токенов/с из-за частых свопов. Ollama и LM Studio просто не умеют работать с таким объёмом весов.
Единственный прямой конкурент – Step-3.5-Flash-int4, но это совсем другая модель. DS4 выигрывает за счёт точной настройки под архитектуру DeepSeek: предсказание экспертов, кеширование внимания, асинхронная загрузка весов с диска. В тестах на суммаризации кода размером 50K токенов DS4 обгоняет MLX в 4 раза (по времени первого токена).
| Инструмент | Память (Q4) | Скорость (ток/с) | Контекст макс. |
|---|---|---|---|
| DS4 | ~140 ГБ | 30-40 | 128K |
| MLX (v0.30) | ~180 ГБ | 8-12 | 32K |
| llama.cpp (k-quants) | ~220 ГБ | 2-5 | 16K |
Установка: от репозитория до первого токена
Переходим к самому вкусному. Инструкция для macOS 15.4+ (Sequoia). Убедитесь, что у вас установлены Xcode Command Line Tools и Python 3.12+.
1 Клонируем репозиторий
git clone https://github.com/your-handle/ds4.git
cd ds4
2 Устанавливаем Metal-зависимости и сам движок
pip install -r requirements.txt
python setup.py install
brew install metal-cpp и перезапустите установку.3 Скачиваем веса DeepSeek 4 Flash и конвертируем
Веса можно взять с Hugging Face (рекомендуем версию DeepSeek-V4-Flash). Для конвертации в формат DS4 используйте встроенный скрипт:
python convert_weights.py --input ./path/to/hf_model --output ./ds4_model --quant q4
Флаг --quant q4 задаёт целевое квантование. Если памяти 128 ГБ, выбирайте q4. Для 192 ГБ можно q3 (выше качество, но больше вес). Процесс занимает 20-30 минут и потребляет ~40 ГБ свободного места на диске.
4 Запускаем инференс!
ds4 serve --model ./ds4_model --ctx 64000 --port 8080
После загрузки (около 30 секунд) откроется OpenAI-совместимый API. Теперь можно отправлять запросы:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-flash",
"messages": [{"role": "user", "content": "Напиши код парсера логов на Python."}],
"max_tokens": 1024
}'
Где это реально пригодится
Честно говоря, DeepSeek 4 Flash на локальном Mac – это оверкилл для чат-ботов. Его стихия – сложный анализ, работа с огромными документами, рефакторинг кода в масштабах enterprise-проекта. Вот три сценария, где DS4 окупается:
- Ревью пул-реквестов в IDE. Подключаете DS4 как замену Copilot (через локальный endpoint) и получаете анализ изменений на 20+ файлов с контекстом всего репозитория. Цензура? Нет, потому что данные не уходят с устройста.
- Анализ юридических документов. Загружаете 500 страниц контракта, и модель мгновенно находит спорные пункты. Скорость 30 токенов/с означает, что вы не уснёте в ожидании.
- Локальный AI-агент с инструментами. Как с SharpAI Aegis, только без компромиссов по качеству рассуждений.
Кому это нужно (и кому нет)
DS4 – не универсальная таблетка. Он бесполезен, если у вас Mac с 16 ГБ или вы используете модель не от DeepSeek. Но если у вас 128 ГБ и вы хотите запустить самую мощную open-source модель без аренды облачных GPU – это лучший вариант на май 2026 года.
Я бы не советовал DS4 новичкам: установка требует умения работать с терминалом и терпения. Но если вы уже знакомы с локальным запуском DeepSeek R1 или ставили Paged MoE на Mac Studio, – вы справитесь.
Прогноз: к лету 2026 DS4, вероятно, обзаведётся GUI-обёрткой и войдёт в состав LM Studio. А пока – ловите момент, конвертируйте веса и наслаждайтесь локальным 1.6T-мозгом. Только не забудьте отключить Time Machine во время первого запуска, иначе MacBook будет думать, что вы атакуете его бэкапами.