Зачем сжимать нейросеть до размеров иконки?
Вы в метро. Сеть пропала. Ваш плейлист внезапно закончился. Знакомая история? Для Яндекс Музыки она стала инженерным вызовом. Их ответ на 27 марта 2026 года - рекомендательная модель, которая помещается в 100 килобайт. Примерно как старая пиксельная картинка.
До этого момента офлайн-режим в стримингах был синонимом проигрывания кэша. Никакой интеллектуальной подборки. Ты либо слушаешь то, что заранее скачал, либо тишину. Инженеры Яндекса решили, что это несправедливо. И бросили вызов законам физики, упаковав сложную логику предсказаний в крошечный бинарник.
Что внутри этого 100 КБ монстра?
Секрет не в одной волшебной технологии, а в комбинации жестоких оптимизаций. Архитектура - гибридная.
- Сверхразреженные эмбеддинги. Вместо dense-векторов на 256 значений используются 16-битные разреженные представления. Экономия памяти - 94%.
- Бинаризованные веса. После обучения веса большинства слоев квантуются до -1, 0 или +1. Это убивает точность? Да. Но не смертельно, если правильно подготовить данные.
- Микро-трансформер на 4 слоя. Ядро модели - миниатюрная версия архитектуры трансформер с 4 головами внимания, но размером окна всего 32 последних трека. Контекст короткий, зато быстрый.
Обучение проходило в облаке на гигантских кластерах, используя принципы активации sparse-моделей, но финальный инференсный движок лишен всякого жира.
| Компонент | Размер (оригинал) | Размер (TinyML) | Сжатие |
|---|---|---|---|
| Модель эмбеддингов треков | ~15 МБ | ~45 КБ | >99% |
| Рекомендательная нейросеть | ~85 МБ | ~55 КБ | >99% |
| Общий размер | ~100 МБ | ~100 КБ | 99.9% |
Как это работает в реальности? От метро до самолета
Модель зашита в последнее обновление Яндекс Музыки (версия 6.1.0 на 27.03.2026). При первом запуске в онлайн-режиме она качает свежие эмбеддинги для вашей библиотеки - это еще ~2-5 МБ в зависимости от количества треков. Дальше - магия.
Вы слушаете трек. Модель, работая целиком в памяти процессора (даже не GPU), анализирует последние 10-15 минут вашего прослушивания. И предлагает следующий трек из офлайн-кэша. Задержка - менее 5 мс. Потребление энергии - незаметная строчка в статистике батареи.
Важный нюанс: модель не генерирует музыку, как ACE-Step 1.5 или тяжеловесный HeartMula 3B. Она только ранжирует уже скачанные треки. Генерация - это другая весовая категория.
Точность? Инженеры признаются: по метрике NDCG@5 модель проигрывает облачному аналогу 15-20%. Но в условиях полного отсутствия сети это бесконечно лучше, чем ничего. А главное - работает на любом устройстве, даже на древних Android-смартфонах.
Почему не CatBoost? Или почему да?
Резонный вопрос. В 2026 году градиентный бустинг все еще доминирует в рекомендациях из-за скорости и точности. Но для офлайн-сценария есть проблема: даже сжатая модель CatBoost для задачи ранжирования треков весит несколько мегабайт. Не 100 КБ.
Нейросеть выбрали из-за гибкости архитектуры. Ее можно «нарезать» и квантовать агрессивнее, чем деревья. Особенно с помощью техник вроде тех, что использовались в Minimax m2.1 DWQ MLX. Деревья же начинают разваливаться при таком уровне сжатия.
Это тот редкий случай, где нейросеть выигрывает не точностью, а ужимаемостью. Иронично, но факт.
Что дальше? TinyML выходит в мейнстрим
Успех Яндекса - не единичный эксперимент. Это часть тренда. Компании вроде IBM уже выпускают специальные edge-модели для микроконтроллеров. А проекты вроде локального подавления шума показывают, что даже сложные аудиозадачи можно решать на устройстве.
Следующий логический шаг - перенос других функций стримингов офлайн. Персонализированные миксы, адаптация громкости под окружение, даже простой отбор треков по настроению на основе анализа локальной библиотеки.
Прогноз на 2027 год? Каждый крупный стриминг - от музыки до видео - будет иметь подобный офлайн-ИИ. Не как фича для галочки, а как конкурентное преимущество. Потому что пользователь уже не понимает, почему при пропаже сети его приложение «тупеет». И он прав.
Яндекс просто оказался первым, кто довел идею до продукта. И теперь у них есть 100 килобайт, которые делают миллионы пользователей немного счастливее в метро, самолете или глухой деревне. Иногда прогресс измеряется не гигафлопсами, а тем, насколько элегантно ты убрал все лишнее.