Почему 230 миллионов параметров — это внезапно много
Когда я впервые увидел число 230M в названии модели, реакция была: «О, очередной игрушечный LLM, который умеет только считать до десяти». Спойлер: ошибался. LFM2.5-230M от Liquid AI — это не урезанная версия большой модели, а самостоятельный зверь, который на удивление внятно отвечает на вопросы, пишет код и даже шутит. И всё это на малине, которая обычно только светодиодами моргает.
На Raspberry Pi 5 модель выдает 42 токена в секунду. Это не «ой, подожди минуту» — это почти диалоговый режим. А на смартфоне с Snapdragon 888 — стабильные 25-30 ток/с. Да, текст генерируется не мгновенно, но читать успеваешь. И это без всяких облачных провайдеров, которые шлют тебе счёт за каждый запрос.
LFM2.5-230M — дистиллированная версия более крупной Liquid Foundation Model 2.5. Авторы выжали из 230 миллионов параметров максимум: на бенчмарках она обгоняет многих ровесников, включая старый добрый Gemma 2 2B по некоторым задачам (например, HellaSwag и ARC).
Как это вообще работает на таком железе?
Секрет в сочетании трёх вещей: архитектура LFM (Liquid Foundation Model) с эффективными attention-механизмами, 4-битная квантизация из коробки и оптимизация под ARM-процессоры. Веса модели весят около 130 МБ в q4_0 — это меньше, чем среднее фото с телефона. Загружается в память за пару секунд.
Для сравнения: Falcon-H1-Tiny (90M) — ещё меньше, но её ответы больше похожи на шаблонные фразы. LFM2.5-230M чувствует контекст, помнит последовательность диалога (контекст 8K токенов) и не сыпется в бессмыслицу при малейшей нагрузке. Falcon-H1-Tiny я запускал на холодильнике — да, работает. Но для осмысленного общения лучше брать 230M.
Сравнение с конкурентами: кто кого
| Модель | Параметры | Скорость на RPi5 (ток/с) | Качество ответов | Контекст |
|---|---|---|---|---|
| LFM2.5-230M | 230M | 42 | Высокое | 8K |
| Falcon-H1-Tiny | 90M | ~100 | Низкое | 2K |
| LFM2.5-1.2B-Thinking | 1.2B | ~8 | Отличное | 16K |
| Pythia-6.9B (дообученная) | 6.9B | не запустится | Зависит от дообучения | 2K |
Вывод: LFM2.5-230M — золотая середина. Она не настолько тупая, как 90M, и не настолько медленная, как 1.2B. Для задач, где важна скорость и адекватность, — идеально. LFM2.5-1.2B-Thinking думает лучше, но ждать генерации по 8 ток/с — то ещё испытание терпения.
Запускаем на практике: малина и андроид
Всё банально до безобразия — нужно только llama.cpp (сборка под ARM) и модель в формате GGUF. На Raspberry Pi ставим, клонируем репозиторий, компилируем с флагом -DCMAKE_CXX_FLAGS="-march=armv8-a" — и погнали.
На смартфоне запуск через Termux или готовые приложения вроде Termux с установленным llama.cpp. Процесс описан в статье про запуск 7B на Snapdragon 888 — там те же шаги, только модель легче. Для слабых андроидов с 4 ГБ ОЗУ — специальный гайд.
Где это пригодится в реальной жизни
- Автономный голосовой ассистент — связка с Whisper и TTS на той же малине. Работает без интернета. Мы уже делали такое на Reachy Mini: локальный speech-to-speech — там модель как раз подходит для обработки команд.
- Умный переводчик в дороге — на телефоне без соединения переводит тексты на ходу. Не хуже гугла, но без прослушки.
- Edge-логика для IoT — Raspberry Pi в поле собирает данные с датчиков, модель анализирует и принимает решения. Уже есть прецеденты с кластером из телефонов, но тут всё проще — одна плата.
- Помощник для изучения языков — генерирует диалоги, проверяет грамматику, объясняет идиомы. Можно вшить прямо в приложение.
Подводные камни: без розовых очков
Модель не идеальна. На сложных логических задачах (математика, длинные рассуждения) она начинает плавать — контекст 8K не спасает. LFM2-2.6B-Transcript справляется лучше с суммаризацией встреч, но та модель в 10 раз тяжелее.
Ещё момент: модель обучалась в основном на английском. Русский она знает примерно на уровне «понимает, но отвечает с ошибками». Если нужна чисто русская модель — лучше дообучить Pythia-6.9B, как описано в этом гайде, или использовать что-то вроде ruGPT-3.5. Но для базовых задач на русском — вполне сносно.
Кому это вообще надо
LFM2.5-230M — инструмент для тех, кто устал от «нажмите кнопку и ждите ответа из облака». Если вы собираете AI-собеседника для звонков мошенникам или делаете робота, который не должен зависнуть при потере сети — берите эту модель. Она стоит в одном ряду с Falcon-H1-Tiny по доступности, но даёт в разы больше осмысленного выхлопа.
В конце концов, 2026 год на дворе. LLM за 230M параметров на Raspberry Pi — это уже не «вау, смотрите», а «ну да, норм, чего ты хотел?». Но именно такие вещи двигают edge-AI в массы. И это круто.