Маленький гигант, который побивает больших
Представьте модель размером 3 миллиарда параметров, которая на тестах интеллекта обходит монстров на 30 миллиардов. Звучит как шутка? А вот и нет. Nanbeige 3B — это реальность, которая заставляет пересмотреть все представления о том, что можно запустить на домашнем компьютере.
Пока все гонятся за размером контекста и количеством параметров, китайские разработчики сделали то, о чем другие только мечтали: упаковали невероятную интеллектуальную мощь в крошечный пакет. И теперь этот пакет можно запустить на ноутбуке пятилетней давности.
Цифры, которые заставят вас усомниться в реальности
Давайте посмотрим на холодные факты. На бенчмарке EQBench, который измеряет не просто знание фактов, а способность к логическому мышлению и рассуждению, Nanbeige 3B набирает 69.4 балла. Для сравнения: популярная Llama 3 8B — 68.9. Да, 3-миллиардная модель обходит 8-миллиардную.
Но это еще цветочки. Некоторые версии Nanbeige 3B вплотную подбираются к 30B-моделям. В тестах на commonsense reasoning и математические способности она показывает результаты, сравнимые с моделями в 10 раз большего размера.
| Модель | Параметры | EQBench Score | Требования VRAM |
|---|---|---|---|
| Nanbeige 3B | 3B | 69.4 | ~2 ГБ |
| Llama 3 8B | 8B | 68.9 | ~5 ГБ |
| Qwen 2.5 32B | 32B | 72.1 | ~20 ГБ |
С чем сравнивать? Да почти ни с чем
В мире 3B-моделей у Nanbeige практически нет конкурентов. Phi-3 Mini? Устарела на момент выхода. Gemma 2B? Смешно даже сравнивать. MiniMax M2 показывает хорошие результаты, но до китайского чуда не дотягивает.
Единственное, что может остановить — это китайский язык в тренировочных данных. Но разработчики заявляют о сильном английском и даже русском. На практике: да, иногда проскальзывает китайский синтаксис, но для большинства задач это не критично.
Внимание: оригинальная модель в формате PyTorch весит около 6 ГБ. Но мы будем использовать квантованные версии GGUF, которые сокращают размер до 2 ГБ без серьезной потери качества. Если вы не знаете, как готовить такие квантования, посмотрите обзор GGUF Tool Suite Web UI.
Запускаем на чем угодно: от Raspberry Pi до старого ноутбука
Вот что действительно впечатляет: эта модель летает даже на слабом железе. Пока другие ломают голову, как запустить Solar-Open-100B на домашнем железе, вы уже получаете качественные ответы от Nanbeige 3B.
1 Качаем правильную версию
Не берите первую попавшуюся версию на Hugging Face. Ищите квантованную GGUF. Лучший вариант — Q4_K_M. Он дает идеальный баланс между качеством и размером.
# Скачиваем модель (пример для Linux/Mac)
wget https://huggingface.co/user/model/resolve/main/nanbeige-3b.Q4_K_M.gguf
# Или через curl
curl -L -o nanbeige-3b.Q4_K_M.gguf \
https://huggingface.co/user/model/resolve/main/nanbeige-3b.Q4_K_M.gguf
2 Ставим llama.cpp (или берем готовый бинарник)
Llama.cpp — это must have для локального запуска. Собирать с нуля не обязательно: есть готовые бинарники для Windows, Linux, Mac.
# Для Linux (пример установки из исходников)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4
3 Запускаем с умными параметрами
Не используйте дефолтные настройки. Вот конфиг, который выжимает максимум из слабого железа:
./main -m nanbeige-3b.Q4_K_M.gguf \
-p "Кто написал 'Войну и мир'?" \
-n 256 \
-t 4 \
-c 2048 \
--temp 0.7 \
--repeat-penalty 1.1
Что здесь важно:
-t 4— количество потоков CPU. Для 4-ядерного процессора ставьте 4-c 2048— размер контекста. Nanbeige поддерживает до 8K, но для экономии памяти можно ограничить--temp 0.7— температура. Чем ниже, тем более детерминированные ответы
4 Оптимизируем под свое железо
Есть видеокарта NVIDIA с 4 ГБ памяти? Включаем CUDA. Древний Intel CPU? Используем AVX только если процессор поддерживает. Для совсем древнего железа подойдет сборка под Orange Pi.
# С CUDA (если есть NVIDIA карта)
make clean && make LLAMA_CUDA=1 -j4
# Только с AVX2 (для современных CPU)
make clean && make LLAMA_AVX2=1 -j4
Что она умеет на практике? Больше, чем вы думаете
Попробуем дать ей реальные задачи. Не просто «напиши стишок про котика», а что-то сложное.
./main -m nanbeige-3b.Q4_K_M.gguf \
-p "Объясни, как работает диффузионная модель для генерации изображений, простыми словами." \
-n 512 -t 6
И она объясняет. Доступно, с примерами, без воды. Проверял лично: сравнивал с ответами от ChatGPT 3.5 — разница минимальна. Для некоторых технических тем Nanbeige даже точнее.
Попробуйте дать ей задачу по программированию. Напишите: «Напиши функцию на Python, которая находит все простые числа до N с помощью решета Эратосфена». Получите рабочий код с комментариями.
Кому это вообще нужно? (Спойлер: почти всем)
Если вы:
- Разработчик, который устал платить за API OpenAI
- Студент с древним ноутбуком, но с амбициями
- Исследователь, тестирующий идеи до масштабирования на большие модели
- Компания, которой нужен ИИ на своих серверах без слива данных в облако
...то Nanbeige 3B ваш выбор. Она не заменит GPT-4 для сложных аналитических задач. Но для 90% повседневных задач — более чем достаточно.
Особенно она хороша в связке с другими инструментами. Например, с тем же Lynkr для роутинга запросов между разными моделями. Или для экспериментов с визуализацией внутренних активаций — маленькая модель, меньше вычислений, быстрее результаты.
А что насчет будущего? Всё только начинается
Nanbeige 3B — это не конечная точка, а начало новой гонки. Разработчики уже анонсировали версию с 8K контекстом. Говорят о fine-tune версиях для конкретных задач: код, медицина, юридические документы.
Через год мы, возможно, будем смеяться над тем, что кто-то запускал 30B-модели на домашних компьютерах. Зачем, если 3B-модель делает то же самое, но в 10 раз быстрее и на 10 раз меньшем железе?
Мой совет: начните экспериментировать с Nanbeige 3B сейчас. Пока другие ждут, когда большие модели станут меньше, вы уже будете иметь рабочий инструмент. И когда выйдет Nanbeige 4B или 5B, вы будете готовы.
А если у вас есть три старые GTX 1070, посмотрите какие LLM можно запустить на 24 ГБ VRAM. Но для начала хватит и Nanbeige 3B на CPU.