Маленький гигант, который побивает больших

Представьте модель размером 3 миллиарда параметров, которая на тестах интеллекта обходит монстров на 30 миллиардов. Звучит как шутка? А вот и нет. Nanbeige 3B — это реальность, которая заставляет пересмотреть все представления о том, что можно запустить на домашнем компьютере.

Пока все гонятся за размером контекста и количеством параметров, китайские разработчики сделали то, о чем другие только мечтали: упаковали невероятную интеллектуальную мощь в крошечный пакет. И теперь этот пакет можно запустить на ноутбуке пятилетней давности.

💡

Если вы до сих пор считаете, что для качественного ИИ нужна видеокарта за полмиллиона рублей, готовьтесь к сюрпризу. Nanbeige 3B работает на интегрированной графике Intel. Да, той самой, которая в вашем офисном ноутбуке.

Цифры, которые заставят вас усомниться в реальности

Давайте посмотрим на холодные факты. На бенчмарке EQBench, который измеряет не просто знание фактов, а способность к логическому мышлению и рассуждению, Nanbeige 3B набирает 69.4 балла. Для сравнения: популярная Llama 3 8B — 68.9. Да, 3-миллиардная модель обходит 8-миллиардную.

Но это еще цветочки. Некоторые версии Nanbeige 3B вплотную подбираются к 30B-моделям. В тестах на commonsense reasoning и математические способности она показывает результаты, сравнимые с моделями в 10 раз большего размера.

Модель	Параметры	EQBench Score	Требования VRAM
Nanbeige 3B	3B	69.4	~2 ГБ
Llama 3 8B	8B	68.9	~5 ГБ
Qwen 2.5 32B	32B	72.1	~20 ГБ

С чем сравнивать? Да почти ни с чем

В мире 3B-моделей у Nanbeige практически нет конкурентов. Phi-3 Mini? Устарела на момент выхода. Gemma 2B? Смешно даже сравнивать. MiniMax M2 показывает хорошие результаты, но до китайского чуда не дотягивает.

Единственное, что может остановить — это китайский язык в тренировочных данных. Но разработчики заявляют о сильном английском и даже русском. На практике: да, иногда проскальзывает китайский синтаксис, но для большинства задач это не критично.

Внимание: оригинальная модель в формате PyTorch весит около 6 ГБ. Но мы будем использовать квантованные версии GGUF, которые сокращают размер до 2 ГБ без серьезной потери качества. Если вы не знаете, как готовить такие квантования, посмотрите обзор GGUF Tool Suite Web UI.

Запускаем на чем угодно: от Raspberry Pi до старого ноутбука

Вот что действительно впечатляет: эта модель летает даже на слабом железе. Пока другие ломают голову, как запустить Solar-Open-100B на домашнем железе, вы уже получаете качественные ответы от Nanbeige 3B.

1 Качаем правильную версию

Не берите первую попавшуюся версию на Hugging Face. Ищите квантованную GGUF. Лучший вариант — Q4_K_M. Он дает идеальный баланс между качеством и размером.

# Скачиваем модель (пример для Linux/Mac)
wget https://huggingface.co/user/model/resolve/main/nanbeige-3b.Q4_K_M.gguf

# Или через curl
curl -L -o nanbeige-3b.Q4_K_M.gguf \
     https://huggingface.co/user/model/resolve/main/nanbeige-3b.Q4_K_M.gguf

2 Ставим llama.cpp (или берем готовый бинарник)

Llama.cpp — это must have для локального запуска. Собирать с нуля не обязательно: есть готовые бинарники для Windows, Linux, Mac.

# Для Linux (пример установки из исходников)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

3 Запускаем с умными параметрами

Не используйте дефолтные настройки. Вот конфиг, который выжимает максимум из слабого железа:

./main -m nanbeige-3b.Q4_K_M.gguf \
       -p "Кто написал 'Войну и мир'?" \
       -n 256 \
       -t 4 \
       -c 2048 \
       --temp 0.7 \
       --repeat-penalty 1.1

Что здесь важно:

-t 4 — количество потоков CPU. Для 4-ядерного процессора ставьте 4
-c 2048 — размер контекста. Nanbeige поддерживает до 8K, но для экономии памяти можно ограничить
--temp 0.7 — температура. Чем ниже, тем более детерминированные ответы

4 Оптимизируем под свое железо

Есть видеокарта NVIDIA с 4 ГБ памяти? Включаем CUDA. Древний Intel CPU? Используем AVX только если процессор поддерживает. Для совсем древнего железа подойдет сборка под Orange Pi.

# С CUDA (если есть NVIDIA карта)
make clean && make LLAMA_CUDA=1 -j4

# Только с AVX2 (для современных CPU)
make clean && make LLAMA_AVX2=1 -j4

Что она умеет на практике? Больше, чем вы думаете

Попробуем дать ей реальные задачи. Не просто «напиши стишок про котика», а что-то сложное.

./main -m nanbeige-3b.Q4_K_M.gguf \
       -p "Объясни, как работает диффузионная модель для генерации изображений, простыми словами." \
       -n 512 -t 6

И она объясняет. Доступно, с примерами, без воды. Проверял лично: сравнивал с ответами от ChatGPT 3.5 — разница минимальна. Для некоторых технических тем Nanbeige даже точнее.

Попробуйте дать ей задачу по программированию. Напишите: «Напиши функцию на Python, которая находит все простые числа до N с помощью решета Эратосфена». Получите рабочий код с комментариями.

💡

Nanbeige 3B отлично справляется с RAG (Retrieval-Augmented Generation). Подключите к ней векторную базу данных — и получите персонального ассистента с доступом к вашим документам. И все это на ноутбуке без интернета.

Кому это вообще нужно? (Спойлер: почти всем)

Если вы:

Разработчик, который устал платить за API OpenAI
Студент с древним ноутбуком, но с амбициями
Исследователь, тестирующий идеи до масштабирования на большие модели
Компания, которой нужен ИИ на своих серверах без слива данных в облако

...то Nanbeige 3B ваш выбор. Она не заменит GPT-4 для сложных аналитических задач. Но для 90% повседневных задач — более чем достаточно.

Особенно она хороша в связке с другими инструментами. Например, с тем же Lynkr для роутинга запросов между разными моделями. Или для экспериментов с визуализацией внутренних активаций — маленькая модель, меньше вычислений, быстрее результаты.

А что насчет будущего? Всё только начинается

Nanbeige 3B — это не конечная точка, а начало новой гонки. Разработчики уже анонсировали версию с 8K контекстом. Говорят о fine-tune версиях для конкретных задач: код, медицина, юридические документы.

Через год мы, возможно, будем смеяться над тем, что кто-то запускал 30B-модели на домашних компьютерах. Зачем, если 3B-модель делает то же самое, но в 10 раз быстрее и на 10 раз меньшем железе?

Мой совет: начните экспериментировать с Nanbeige 3B сейчас. Пока другие ждут, когда большие модели станут меньше, вы уже будете иметь рабочий инструмент. И когда выйдет Nanbeige 4B или 5B, вы будете готовы.

А если у вас есть три старые GTX 1070, посмотрите какие LLM можно запустить на 24 ГБ VRAM. Но для начала хватит и Nanbeige 3B на CPU.

Nanbeige 3B vs 30B модели: как запустить локально самый эффективный 3B-модель