Забудьте про облака: как mlx-tinker учит ИИ прямо на вашем Mac
Continual reinforcement learning – это та штука, которая обычно требует аренды сервера за $20 в час и молитв на стабильность интернета. Пока вы не встретите mlx-tinker. Этот инструмент берет Qwen3.5 (да, самую свежую версию на 02.04.2026) и заставляет ее учиться на лету, прямо на железе Apple Silicon. Без AWS, без Google Cloud, даже без намека на ежемесячный счет.
Что внутри этого черного ящика
MLX-tinker – это не просто обертка вокруг MLX. Это Frankenstein, собранный из трех ключевых частей. Во-первых, он использует MLX 0.9.1 (последний стабильный релиз на начало 2026 года) для работы с Metal. Во-вторых, заточен именно под архитектуру Qwen3.5 – не Llama, не Mistral, а именно ту китайскую модель, которая в 2025 году обогнала по некоторым тестам даже GPT-4.5. В-третьих, он реализует Proximal Policy Optimization (PPO) с поддержкой непрерывного обучения – тот самый алгоритм, который использует DeepMind, но здесь он работает на вашем M3 Max.
Не путайте с обычным fine-tuning! Если вам нужно просто дообучить модель на датасете раз и навсегда, смотрите в сторону mlx-tune. Continual RL – это процесс, а не одноразовая операция.
Почему это работает там, где другие спотыкаются
Попробуйте запустить continual RL через тот же Claude Code Router – упретесь в лимиты памяти и стоимость. Или возьмите облачное решение: каждая итерация обучения будет стоить вам доллары, а задержки сведут на нет идею «непрерывности». MLX-tinker обходит эти грабли за счет трех вещей:
- Квантование на лету: Модель автоматически сжимается до 4-битного формата, как в Turboquant, но без ручных танцев с бубном.
- Локальная обратная связь: Система вознаграждения (reward model) работает на том же устройстве, что и основная модель. Никаких API-вызовов.
- Эффективное использование Unified Memory: В отличие от сложных RPC-схем, здесь все в рамках одного процесса.
| Инструмент | Continual RL | Локальность | Сложность |
|---|---|---|---|
| MLX-tinker | ✅ Полная поддержка | ✅ Только Apple Silicon | Средняя |
| MLX-tune | ❌ Только fine-tuning | ✅ Apple Silicon | Низкая |
| Облачные платформы | ⚠️ Частично (дорого) | ❌ Требует интернет | Высокая |
1 Ставим все за пять минут (даже если ненавидите Homebrew)
Откройте терминал. Да, тот самый, который вы используете только для git clone. Вбейте эти команды – они работают на 02.04.2026 и требуют Python 3.11 или выше.
# Клонируем репозиторий (осторожно, там 2 ГБ весов)
git clone https://github.com/mlx-community/mlx-tinker.git
cd mlx-tinker
# Ставим зависимости через uv (быстрее pip в 10 раз)
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv
source .venv/bin/activate
uv pip install -r requirements.txt
# Качаем Qwen3.5-7B-Instruct (последняя версия на 2026 год)
python download_model.py --model qwen3.5-7b-instruct --quant 4bit
Если у вас M1/M2 с 16 ГБ RAM, берите 4-битную версию. Для M3 Pro с 36 ГБ можно попробовать 8-битную – обучение пойдет быстрее. Но помните: continual RL жрет память как связанные iPhone и Mac.
2 Настраиваем среду: где брать данные и как их кормить
Тут начинается магия. Вместо статического датасета вы создаете папку, куда будете складывать JSONL-файлы с новыми диалогами. Система мониторит эту папку и автоматически подхватывает изменения.
# Создаем директорию для данных
mkdir -p data/stream
# Пример содержимого нового файла data/stream/2026-04-02.jsonl
# {"instruction": "Объясни квантовую запутанность как для дизайнера", "output": "..."}
# {"instruction": "Напиши SQL-запрос для поиска дубликатов в таблице users", "output": "..."}
Конфигурационный файл – это не сто строк YAML, а всего пять ключевых параметров. Главное – указать путь к модели и к папке с данными.
{
"model_path": "models/qwen3.5-7b-instruct-4bit",
"data_stream_path": "data/stream",
"learning_rate": 1e-5,
"batch_size": 2,
"reward_model": "local" // Можно "custom", если у вас своя система вознаграждений
}
3 Запускаем и наблюдаем, как модель меняется в реальном времени
Вот команда, которая запустит continual RL процесс. Он будет работать в фоне, потребляя около 40% CPU и 12 ГБ памяти на M2 Pro.
python run_continual.py --config config.json --monitor
Флаг --monitor включает веб-интерфейс на localhost:8050. Там вы увидите графики: reward растет (или падает), perplexity меняется, а самое интересное – примеры того, как ответы модели эволюционируют со временем. Первые два часа модель может выдавать ерунду. На третий час – вдруг начнет писать осмысленные тексты. К концу дня – адаптируется под ваш стиль общения.
Кому это нужно, а кому – нет
MLX-tinker – инструмент для специфической аудитории. Если вы исследователь, который экспериментирует с адаптивными ИИ, это ваш выбор. Если вы разработчик, которому нужно создать чат-бота для внутреннего использования компании, и у вас Mac в офисе – попробуйте. Если вы студент, который хочет просто поиграться с ИИ, начните с Qwen3-coder-next.
Абсолютно не подходит:
- Тем, у кого Windows или Linux на Intel. Это экосистема Apple Silicon.
- Тем, кому нужна генерация изображений (тут смотрите Qwen-Image-2512).
- Тем, кто боится, что модель «забудет» базовые знания. Continual RL требует аккуратного управления.
Что будет, если все начнут использовать continual RL локально?
Через год мы увидим взрыв персонализированных ИИ-ассистентов, которые учатся не на общих данных из интернета, а на ваших личных диалогах, стиле письма, даже ошибках. Проблема в том, что такие модели невозможно будет сравнить между собой – каждая станет уникальной. И тогда все эти бенчмарки типа MMLU превратятся в музейный экспонат. Вместо «у кого модель умнее» будет «у кого модель лучше понимает именно меня». И это, возможно, и есть настоящая цель.
Пока крупные компании строят облачные ИИ-монополии, mlx-tinker дает вам шанс вырастить собственный интеллект в гараже. Ну, или на кухне, с MacBook Air на коленях.