Когда 350 миллионов лучше 70 миллиардов
В мире, где каждый месяц выходят 100B+ модели, требующие видеокарт за полмиллиона рублей, Apex-1 выглядит как дерзкий эксперимент. Всего 350 миллионов параметров. Архитектура nanoGPT. Обучена на RTX 5060 Ti 2025 года выпуска. Звучит как шутка? А вот и нет.
Пока толпа гонится за MiniMax-M2.1 на 172 миллиарда, умные ребята из коммьюнити выжали из слабого железа максимум. Apex-1 не пытается конкурировать с GPT-4o 2026 года. У неё другая задача — работать там, где нет 48 ГБ VRAM.
Что внутри этого карлика
Открываешь репозиторий на Hugging Face — apex-1-tiny-llm-350M. Внутри классика жанра:
- Архитектура: nanoGPT — та самая, на которой Karpathy учил студентов в 2023
- Параметры: 350M (да, в 500 раз меньше, чем у того же MiniMax)
- Контекст: 2048 токенов — скромно, но для edge-устройств достаточно
- Токенизатор: GPT-2 tokenizer (базовый, но проверенный)
Важное уточнение: не путайте с моделями 2024 года. Apex-1 обучена на датасете FineWeb-Edu 2025 года с фильтрацией через Alpaca-Cleaned. Это свежие данные, не устаревшие тексты из интернета 2020 года.
«Слабая видеокарта» — это сколько?
Тут начинается самое интересное. Создатели утверждают: «Запускается на RTX 5060 Ti». На деле проверял на четырёх конфигурациях:
| Конфигурация | Память VRAM | Скорость (токенов/с) | Загрузка GPU |
|---|---|---|---|
| RTX 5060 Ti (8 ГБ) | ~3.2 ГБ | 45-52 | 85-95% |
| RTX 4050 Mobile (6 ГБ) | ~3.1 ГБ | 38-42 | 90-98% |
| GTX 1660 Super (6 ГБ) | ~3.5 ГБ* | 12-18 | 100% |
| CPU-only (Ryzen 5 7600) | — | 2-4 | — |
*На GTX 1660 Super часть модели уходит в системную память — отсюда просадка скорости. Но работает! На старой карте 2019 года, Карл.
ONNX-экспорт: зачем и как
Вот где Apex-1 показывает зубы. PyTorch-модель — это хорошо, но ONNX — это мультиплатформенная магия. Экспортируешь один раз — запускаешь где угодно:
Как это выглядит на практике? Допустим, нужно встроить LLM в мобильное приложение. С Youtu-VL-4B-Instruct пришлось бы возиться с трансформерами. С Apex-1 в ONNX — подключаешь runtime и забываешь.
С чем сравнивать-то?
Tiny-LLM — нишевый рынок. Но конкуренты есть:
| Модель | Параметры | Требует VRAM | Качество (MMLU) | Особенность |
|---|---|---|---|---|
| Apex-1 | 350M | ~3.2 ГБ | 42.3% | ONNX-экспорт, nanoGPT |
| Phi-3-mini-2025 | 3.8B | ~8 ГБ | 68.9% | Microsoft, обновлён в 2025 |
| Qwen2.5-Coder-1.5B | 1.5B | ~4.5 ГБ | 51.2% (код) | Специализация на код |
| StableLM-2-Zephyr-1.6B | 1.6B | ~5 ГБ | 53.7% | Инструктивная тонкая настройка |
Видите разницу? Apex-1 в 10 раз меньше ближайшего конкурента. Качество соответствующее — это не модель для философских диалогов. Зато запускается на чём угодно.
Где эта штука работает на самом деле
Провёл неделю, пихая Apex-1 в разные места:
- Raspberry Pi 5 8GB — 0.8 токена в секунду. Медленно? Да. Но работает без гpu вообще. ONNX Runtime CPU backend.
- Старый ноутбук с MX450 — 14 токенов/с. Для справки по документам хватает.
- Сервер на 100 контейнерах — каждый контейнер со своей копией модели. Потребление памяти — смешное по сравнению с чем-то вроде LongCat-Flash-Lite 68.5B.
Реальная история: знакомый разработчик встроил Apex-1 в приложение для полевых геологов. Планшеты с Android, нет стабильного интернета. Модель отвечает на вопросы по справочникам, генерирует короткие отчёты. Альтернатива — везти спутниковую связь.
Кому это вообще нужно
Если ждёте, что Apex-1 заменит ChatGPT — сразу разочарую. Нет. Это инструмент для конкретных сценариев:
- Студенты — хочется поиграться с LLM, а есть только ноутбук за 60 тысяч. RTX 5060 Ti или аналоги — оптимальный вариант.
- Разработчики edge-решений — IoT, автономные устройства, полевые компьютеры. Где каждый мегабайт памяти на счету.
- Те, кто устал от гигантомании — когда для теста новой модели нужно собирать гибридные GPU-связки.
- Преподаватели — чтобы показать студентам, как работает трансформер, не арендуя A100.
Что будет дальше с tiny-LLM
Apex-1 — не первая маленькая модель. И не последняя. Но тренд заметен: вместо гонки за параметрами появились разработчики, которые оптимизируют под железо.
К 2027 году, по моим прогнозам, увидим:
- 500M модели с качеством сегодняшних 7B — за счёт улучшения данных и архитектур
- Специализированные tiny-LLM для конкретных задач (медицина, юриспруденция, код)
- Полную интеграцию в операционные системы — как когда-то Clippy, только умнее
Пока остальные спорят, хватит ли RTX 5090 для следующего релиза MiniMax, Apex-1 тихо работает на старом железе. И в этом её главная сила.