Забудьте про облака: как mlx-tinker учит ИИ прямо на вашем Mac

Continual reinforcement learning – это та штука, которая обычно требует аренды сервера за $20 в час и молитв на стабильность интернета. Пока вы не встретите mlx-tinker. Этот инструмент берет Qwen3.5 (да, самую свежую версию на 02.04.2026) и заставляет ее учиться на лету, прямо на железе Apple Silicon. Без AWS, без Google Cloud, даже без намека на ежемесячный счет.

💡

Continual RL — это когда модель не просто дообучается один раз, а постоянно адаптируется к новым данным в реальном времени. Представьте чат-бота, который учится на каждой вашей реплике, не забывая при этом, что такое вежливость.

Что внутри этого черного ящика

MLX-tinker – это не просто обертка вокруг MLX. Это Frankenstein, собранный из трех ключевых частей. Во-первых, он использует MLX 0.9.1 (последний стабильный релиз на начало 2026 года) для работы с Metal. Во-вторых, заточен именно под архитектуру Qwen3.5 – не Llama, не Mistral, а именно ту китайскую модель, которая в 2025 году обогнала по некоторым тестам даже GPT-4.5. В-третьих, он реализует Proximal Policy Optimization (PPO) с поддержкой непрерывного обучения – тот самый алгоритм, который использует DeepMind, но здесь он работает на вашем M3 Max.

Не путайте с обычным fine-tuning! Если вам нужно просто дообучить модель на датасете раз и навсегда, смотрите в сторону mlx-tune. Continual RL – это процесс, а не одноразовая операция.

Почему это работает там, где другие спотыкаются

Попробуйте запустить continual RL через тот же Claude Code Router – упретесь в лимиты памяти и стоимость. Или возьмите облачное решение: каждая итерация обучения будет стоить вам доллары, а задержки сведут на нет идею «непрерывности». MLX-tinker обходит эти грабли за счет трех вещей:

Квантование на лету: Модель автоматически сжимается до 4-битного формата, как в Turboquant, но без ручных танцев с бубном.
Локальная обратная связь: Система вознаграждения (reward model) работает на том же устройстве, что и основная модель. Никаких API-вызовов.
Эффективное использование Unified Memory: В отличие от сложных RPC-схем, здесь все в рамках одного процесса.

Инструмент	Continual RL	Локальность	Сложность
MLX-tinker	✅ Полная поддержка	✅ Только Apple Silicon	Средняя
MLX-tune	❌ Только fine-tuning	✅ Apple Silicon	Низкая
Облачные платформы	⚠️ Частично (дорого)	❌ Требует интернет	Высокая

1 Ставим все за пять минут (даже если ненавидите Homebrew)

Откройте терминал. Да, тот самый, который вы используете только для git clone. Вбейте эти команды – они работают на 02.04.2026 и требуют Python 3.11 или выше.

# Клонируем репозиторий (осторожно, там 2 ГБ весов)
git clone https://github.com/mlx-community/mlx-tinker.git
cd mlx-tinker

# Ставим зависимости через uv (быстрее pip в 10 раз)
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv
source .venv/bin/activate
uv pip install -r requirements.txt

# Качаем Qwen3.5-7B-Instruct (последняя версия на 2026 год)
python download_model.py --model qwen3.5-7b-instruct --quant 4bit

Если у вас M1/M2 с 16 ГБ RAM, берите 4-битную версию. Для M3 Pro с 36 ГБ можно попробовать 8-битную – обучение пойдет быстрее. Но помните: continual RL жрет память как связанные iPhone и Mac.

2 Настраиваем среду: где брать данные и как их кормить

Тут начинается магия. Вместо статического датасета вы создаете папку, куда будете складывать JSONL-файлы с новыми диалогами. Система мониторит эту папку и автоматически подхватывает изменения.

# Создаем директорию для данных
mkdir -p data/stream

# Пример содержимого нового файла data/stream/2026-04-02.jsonl
# {"instruction": "Объясни квантовую запутанность как для дизайнера", "output": "..."}
# {"instruction": "Напиши SQL-запрос для поиска дубликатов в таблице users", "output": "..."}

Конфигурационный файл – это не сто строк YAML, а всего пять ключевых параметров. Главное – указать путь к модели и к папке с данными.

{
  "model_path": "models/qwen3.5-7b-instruct-4bit",
  "data_stream_path": "data/stream",
  "learning_rate": 1e-5,
  "batch_size": 2,
  "reward_model": "local" // Можно "custom", если у вас своя система вознаграждений
}

3 Запускаем и наблюдаем, как модель меняется в реальном времени

Вот команда, которая запустит continual RL процесс. Он будет работать в фоне, потребляя около 40% CPU и 12 ГБ памяти на M2 Pro.

python run_continual.py --config config.json --monitor

Флаг --monitor включает веб-интерфейс на localhost:8050. Там вы увидите графики: reward растет (или падает), perplexity меняется, а самое интересное – примеры того, как ответы модели эволюционируют со временем. Первые два часа модель может выдавать ерунду. На третий час – вдруг начнет писать осмысленные тексты. К концу дня – адаптируется под ваш стиль общения.

⚠️

Не оставляйте процесс работать неделю без присмотра. Continual RL без четкой системы вознаграждений может скатиться в генерацию мусора. Проверяйте логи раз в день и корректируйте данные в папке stream.

Кому это нужно, а кому – нет

MLX-tinker – инструмент для специфической аудитории. Если вы исследователь, который экспериментирует с адаптивными ИИ, это ваш выбор. Если вы разработчик, которому нужно создать чат-бота для внутреннего использования компании, и у вас Mac в офисе – попробуйте. Если вы студент, который хочет просто поиграться с ИИ, начните с Qwen3-coder-next.

Абсолютно не подходит:

Тем, у кого Windows или Linux на Intel. Это экосистема Apple Silicon.
Тем, кому нужна генерация изображений (тут смотрите Qwen-Image-2512).
Тем, кто боится, что модель «забудет» базовые знания. Continual RL требует аккуратного управления.

Что будет, если все начнут использовать continual RL локально?

Через год мы увидим взрыв персонализированных ИИ-ассистентов, которые учатся не на общих данных из интернета, а на ваших личных диалогах, стиле письма, даже ошибках. Проблема в том, что такие модели невозможно будет сравнить между собой – каждая станет уникальной. И тогда все эти бенчмарки типа MMLU превратятся в музейный экспонат. Вместо «у кого модель умнее» будет «у кого модель лучше понимает именно меня». И это, возможно, и есть настоящая цель.

Пока крупные компании строят облачные ИИ-монополии, mlx-tinker дает вам шанс вырастить собственный интеллект в гараже. Ну, или на кухне, с MacBook Air на коленях.

Подписаться на канал

mlx-tinker: локальное continual RL для Qwen3.5 на Apple Silicon — установка и использование