Falcon 90M: когда 90 миллионов параметров - это не мало, а достаточно
Забудьте про гигабайтные модели, требующие RTX 4090. Falcon 90M весит около 90 мегабайт. Да, вы не ослышались. Мегабайт. Этот крошечный зверь запускается на чем угодно - от Raspberry Pi до ноутбука десятилетней давности.
Что внутри коробки: три варианта на все случаи жизни
Команда Falcon не стала ограничиваться одной моделью. Вместо этого они выпустили три специализированных варианта, каждый в формате GGUF (спасибо за это).
| Модель | Назначение | Размер (GGUF Q4_K_M) | Минимальные требования |
|---|---|---|---|
| Falcon 90M Base | Базовый вариант для дообучения | ~90 MB | Любой x64 CPU с 2GB RAM |
| Falcon 90M Instruct | Инструкции, чат, простые задачи | ~90 MB | Любой x64 CPU с 2GB RAM |
| Falcon 90M Coder | Простой код, автодополнение | ~90 MB | Любой x64 CPU с 2GB RAM |
Tool-Calling версия пока в разработке, но учитывая размер модели, не ждите от нее чудес. Хотя кто знает - может, именно Falcon 90M станет первым ИИ на вашем умном чайнике.
Запуск: проще, чем включить микроволновку
Скачиваете модель с HuggingFace (там же, кстати, лежит и Falcon H1R 7B для серьезных задач). Ставите llama.cpp или ollama. Запускаете. Все.
Не пытайтесь запускать через трансформеры от HuggingFace - вы же не хотите увидеть, как ваша оперативка плачет. GGUF формат создан именно для таких случаев. Кстати, если конвертация GGUF вызывает головную боль, посмотрите на YaGUFF.
1 Скачивание модели
Идете на HuggingFace в репозиторий tiiuae/falcon-90m-gguf. Выбираете нужный вариант. Instruct для диалога, Coder для кода, Base если хотите поиграться с дообучением.
2 Установка llama.cpp
Клонируете репозиторий, собираете. Или скачиваете готовый бинарник. На macOS это делается через Homebrew, на Linux - через apt или компиляцию, на Windows... ну, на Windows есть WSL.
3 Запуск
Командная строка, одна строчка. Модель загружается за секунды. Даже на Raspberry Pi 4. Особенно на Raspberry Pi 4 - это его родная стихия.
А что у конкурентов? Сравниваем по-честному
Falcon 90M - не единственный карлик в мире LLM. Gemma 3 270M от Google почти в три раза больше. В три раза! Для embedded-систем это как сравнивать легковушку с грузовиком.
LFM2.5 1.2B Instruct вообще гигант - 1.2 миллиарда параметров против 90 миллионов. Разница на порядок. Хотя LFM2.5 умнее, он уже требует хоть каких-то ресурсов.
| Модель | Параметры | Размер GGUF | Минимум RAM | Скорость на RPi 4 |
|---|---|---|---|---|
| Falcon 90M | 90M | ~90 MB | 512 MB | ~15 токенов/с |
| Gemma 3 270M | 270M | ~270 MB | 1 GB | ~8 токенов/с |
| LFM2.5 1.2B | 1.2B | ~700 MB | 2 GB | ~3 токенов/с |
Видите разницу? Falcon 90M быстрее всех на слабом железе. Потому что меньше. Иногда меньше - действительно лучше.
Где это реально использовать? Не в генерации романов, точно
Забудьте про сложные рассуждения, как у HyperNova-60B. Falcon 90M для другого.
- Классификация текста: спам/не спам, позитивный/негативный отзыв, категория товара. Быстро, дешево, без GPU.
- Извлечение сущностей: имена, даты, суммы из коротких текстов. Идеально для автоматизации рутины.
- Простой чат-бот: ответы на FAQ, перенаправление к оператору. Не пытайтесь философствовать с ним.
- Автодополнение кода: Falcon 90M Coder справится с простыми шаблонами. Сложную логику оставьте FrogMini.
- Образовательные проекты: демонстрация работы LLM студентам. Без облаков, без подписок, на старом ноутбуке.
Попробуйте запустить мультимодальные модели на таком железе. Не получится. А Falcon 90M - пожалуйста.
Кому подойдет? Не всем, и это нормально
Если вы ждете от модели глубины Mistral 3 или Mistral Ministral 3, вы разочаруетесь. Falcon 90M - инструмент для конкретных задач.
Берите Falcon 90M если: у вас ограниченные ресурсы (Raspberry Pi, старый ноутбук), нужна скорость, задача простая, приватность критична (все локально), бюджет нулевой. Не берите если: нужны сложные рассуждения, длинные тексты, творчество.
Идеальные пользователи:
- Embedded-разработчики: IoT устройства с ограниченной памятью
- Преподаватели: демонстрация LLM без облачной инфраструктуры
- Стартапы: прототипирование без затрат на GPU
- Энтузиасты: поэкспериментировать с локальным ИИ на чем угодно
А что насчет железа? Любого хватит
Сравнивать Falcon 90M по требованиям к железу с другими моделями - это как сравнивать велосипед с космическим кораблем. Но если серьезно, вот что нужно:
Процессор: любой x64 за последние 10 лет. Даже Intel Atom справится. Оперативная память: 512 мегабайт для работы, 2 гигабайта с запасом. Диск: 100 мегабайт свободного места. Все.
После знакомства с требовательными монстрами вроде тех, что описаны в гайде по выбору железа, Falcon 90M кажется глотком свежего воздуха.
Что дальше? Миниатюризация продолжается
Falcon 90M - не предел. Уже есть модели на 30 миллионов параметров, которые еще менее требовательны. Тренд ясен: ИИ становится доступнее. Не в плане денег (хотя и в плане денег тоже), а в плане требований к железу.
Через год мы, возможно, будем смеяться над тем, что считали 90 миллионов параметров "сверхлегкой" моделью. А пока Falcon 90M - один из самых доступных способов заиметь локальный ИИ. Без подписок, без облаков, без мощного железа.
Скачайте. Попробуйте. Удивитесь, что это работает на том, что у вас есть. И задумайтесь: может, не всегда нужно гнаться за миллиардами параметров?