Falcon 90M: когда 90 миллионов параметров - это не мало, а достаточно

Забудьте про гигабайтные модели, требующие RTX 4090. Falcon 90M весит около 90 мегабайт. Да, вы не ослышались. Мегабайт. Этот крошечный зверь запускается на чем угодно - от Raspberry Pi до ноутбука десятилетней давности.

💡

В отличие от своих старших братьев, Falcon 90M не пытается решать все задачи вселенной. Его философия проста: сделать одну вещь, но сделать ее быстро и на любом железе.

Что внутри коробки: три варианта на все случаи жизни

Команда Falcon не стала ограничиваться одной моделью. Вместо этого они выпустили три специализированных варианта, каждый в формате GGUF (спасибо за это).

Модель	Назначение	Размер (GGUF Q4_K_M)	Минимальные требования
Falcon 90M Base	Базовый вариант для дообучения	~90 MB	Любой x64 CPU с 2GB RAM
Falcon 90M Instruct	Инструкции, чат, простые задачи	~90 MB	Любой x64 CPU с 2GB RAM
Falcon 90M Coder	Простой код, автодополнение	~90 MB	Любой x64 CPU с 2GB RAM

Tool-Calling версия пока в разработке, но учитывая размер модели, не ждите от нее чудес. Хотя кто знает - может, именно Falcon 90M станет первым ИИ на вашем умном чайнике.

Запуск: проще, чем включить микроволновку

Скачиваете модель с HuggingFace (там же, кстати, лежит и Falcon H1R 7B для серьезных задач). Ставите llama.cpp или ollama. Запускаете. Все.

Не пытайтесь запускать через трансформеры от HuggingFace - вы же не хотите увидеть, как ваша оперативка плачет. GGUF формат создан именно для таких случаев. Кстати, если конвертация GGUF вызывает головную боль, посмотрите на YaGUFF.

1 Скачивание модели

Идете на HuggingFace в репозиторий tiiuae/falcon-90m-gguf. Выбираете нужный вариант. Instruct для диалога, Coder для кода, Base если хотите поиграться с дообучением.

2 Установка llama.cpp

Клонируете репозиторий, собираете. Или скачиваете готовый бинарник. На macOS это делается через Homebrew, на Linux - через apt или компиляцию, на Windows... ну, на Windows есть WSL.

3 Запуск

Командная строка, одна строчка. Модель загружается за секунды. Даже на Raspberry Pi 4. Особенно на Raspberry Pi 4 - это его родная стихия.

А что у конкурентов? Сравниваем по-честному

Falcon 90M - не единственный карлик в мире LLM. Gemma 3 270M от Google почти в три раза больше. В три раза! Для embedded-систем это как сравнивать легковушку с грузовиком.

LFM2.5 1.2B Instruct вообще гигант - 1.2 миллиарда параметров против 90 миллионов. Разница на порядок. Хотя LFM2.5 умнее, он уже требует хоть каких-то ресурсов.

Модель	Параметры	Размер GGUF	Минимум RAM	Скорость на RPi 4
Falcon 90M	90M	~90 MB	512 MB	~15 токенов/с
Gemma 3 270M	270M	~270 MB	1 GB	~8 токенов/с
LFM2.5 1.2B	1.2B	~700 MB	2 GB	~3 токенов/с

Видите разницу? Falcon 90M быстрее всех на слабом железе. Потому что меньше. Иногда меньше - действительно лучше.

Где это реально использовать? Не в генерации романов, точно

Забудьте про сложные рассуждения, как у HyperNova-60B. Falcon 90M для другого.

Классификация текста: спам/не спам, позитивный/негативный отзыв, категория товара. Быстро, дешево, без GPU.
Извлечение сущностей: имена, даты, суммы из коротких текстов. Идеально для автоматизации рутины.
Простой чат-бот: ответы на FAQ, перенаправление к оператору. Не пытайтесь философствовать с ним.
Автодополнение кода: Falcon 90M Coder справится с простыми шаблонами. Сложную логику оставьте FrogMini.
Образовательные проекты: демонстрация работы LLM студентам. Без облаков, без подписок, на старом ноутбуке.

Попробуйте запустить мультимодальные модели на таком железе. Не получится. А Falcon 90M - пожалуйста.

Кому подойдет? Не всем, и это нормально

Если вы ждете от модели глубины Mistral 3 или Mistral Ministral 3, вы разочаруетесь. Falcon 90M - инструмент для конкретных задач.

Берите Falcon 90M если: у вас ограниченные ресурсы (Raspberry Pi, старый ноутбук), нужна скорость, задача простая, приватность критична (все локально), бюджет нулевой. Не берите если: нужны сложные рассуждения, длинные тексты, творчество.

Идеальные пользователи:

Embedded-разработчики: IoT устройства с ограниченной памятью
Преподаватели: демонстрация LLM без облачной инфраструктуры
Стартапы: прототипирование без затрат на GPU
Энтузиасты: поэкспериментировать с локальным ИИ на чем угодно

А что насчет железа? Любого хватит

Сравнивать Falcon 90M по требованиям к железу с другими моделями - это как сравнивать велосипед с космическим кораблем. Но если серьезно, вот что нужно:

Процессор: любой x64 за последние 10 лет. Даже Intel Atom справится. Оперативная память: 512 мегабайт для работы, 2 гигабайта с запасом. Диск: 100 мегабайт свободного места. Все.

После знакомства с требовательными монстрами вроде тех, что описаны в гайде по выбору железа, Falcon 90M кажется глотком свежего воздуха.

Что дальше? Миниатюризация продолжается

Falcon 90M - не предел. Уже есть модели на 30 миллионов параметров, которые еще менее требовательны. Тренд ясен: ИИ становится доступнее. Не в плане денег (хотя и в плане денег тоже), а в плане требований к железу.

Через год мы, возможно, будем смеяться над тем, что считали 90 миллионов параметров "сверхлегкой" моделью. А пока Falcon 90M - один из самых доступных способов заиметь локальный ИИ. Без подписок, без облаков, без мощного железа.

Скачайте. Попробуйте. Удивитесь, что это работает на том, что у вас есть. И задумайтесь: может, не всегда нужно гнаться за миллиардами параметров?

Falcon 90M: обзор сверхлегких моделей для любых устройств и их практическое применение