Почему 230 миллионов параметров — это внезапно много

Когда я впервые увидел число 230M в названии модели, реакция была: «О, очередной игрушечный LLM, который умеет только считать до десяти». Спойлер: ошибался. LFM2.5-230M от Liquid AI — это не урезанная версия большой модели, а самостоятельный зверь, который на удивление внятно отвечает на вопросы, пишет код и даже шутит. И всё это на малине, которая обычно только светодиодами моргает.

На Raspberry Pi 5 модель выдает 42 токена в секунду. Это не «ой, подожди минуту» — это почти диалоговый режим. А на смартфоне с Snapdragon 888 — стабильные 25-30 ток/с. Да, текст генерируется не мгновенно, но читать успеваешь. И это без всяких облачных провайдеров, которые шлют тебе счёт за каждый запрос.

LFM2.5-230M — дистиллированная версия более крупной Liquid Foundation Model 2.5. Авторы выжали из 230 миллионов параметров максимум: на бенчмарках она обгоняет многих ровесников, включая старый добрый Gemma 2 2B по некоторым задачам (например, HellaSwag и ARC).

Как это вообще работает на таком железе?

Секрет в сочетании трёх вещей: архитектура LFM (Liquid Foundation Model) с эффективными attention-механизмами, 4-битная квантизация из коробки и оптимизация под ARM-процессоры. Веса модели весят около 130 МБ в q4_0 — это меньше, чем среднее фото с телефона. Загружается в память за пару секунд.

Для сравнения: Falcon-H1-Tiny (90M) — ещё меньше, но её ответы больше похожи на шаблонные фразы. LFM2.5-230M чувствует контекст, помнит последовательность диалога (контекст 8K токенов) и не сыпется в бессмыслицу при малейшей нагрузке. Falcon-H1-Tiny я запускал на холодильнике — да, работает. Но для осмысленного общения лучше брать 230M.

Сравнение с конкурентами: кто кого

Модель	Параметры	Скорость на RPi5 (ток/с)	Качество ответов	Контекст
LFM2.5-230M	230M	42	Высокое	8K
Falcon-H1-Tiny	90M	~100	Низкое	2K
LFM2.5-1.2B-Thinking	1.2B	~8	Отличное	16K
Pythia-6.9B (дообученная)	6.9B	не запустится	Зависит от дообучения	2K

Вывод: LFM2.5-230M — золотая середина. Она не настолько тупая, как 90M, и не настолько медленная, как 1.2B. Для задач, где важна скорость и адекватность, — идеально. LFM2.5-1.2B-Thinking думает лучше, но ждать генерации по 8 ток/с — то ещё испытание терпения.

Запускаем на практике: малина и андроид

Всё банально до безобразия — нужно только llama.cpp (сборка под ARM) и модель в формате GGUF. На Raspberry Pi ставим, клонируем репозиторий, компилируем с флагом -DCMAKE_CXX_FLAGS="-march=armv8-a" — и погнали.

На смартфоне запуск через Termux или готовые приложения вроде Termux с установленным llama.cpp. Процесс описан в статье про запуск 7B на Snapdragon 888 — там те же шаги, только модель легче. Для слабых андроидов с 4 ГБ ОЗУ — специальный гайд.

💡

Лайфхак: используйте q4_K_M вместо q4_0 — качество чуть выше, а скорость падает всего на 5-7%.

Где это пригодится в реальной жизни

Автономный голосовой ассистент — связка с Whisper и TTS на той же малине. Работает без интернета. Мы уже делали такое на Reachy Mini: локальный speech-to-speech — там модель как раз подходит для обработки команд.
Умный переводчик в дороге — на телефоне без соединения переводит тексты на ходу. Не хуже гугла, но без прослушки.
Edge-логика для IoT — Raspberry Pi в поле собирает данные с датчиков, модель анализирует и принимает решения. Уже есть прецеденты с кластером из телефонов, но тут всё проще — одна плата.
Помощник для изучения языков — генерирует диалоги, проверяет грамматику, объясняет идиомы. Можно вшить прямо в приложение.

Подводные камни: без розовых очков

Модель не идеальна. На сложных логических задачах (математика, длинные рассуждения) она начинает плавать — контекст 8K не спасает. LFM2-2.6B-Transcript справляется лучше с суммаризацией встреч, но та модель в 10 раз тяжелее.

Ещё момент: модель обучалась в основном на английском. Русский она знает примерно на уровне «понимает, но отвечает с ошибками». Если нужна чисто русская модель — лучше дообучить Pythia-6.9B, как описано в этом гайде, или использовать что-то вроде ruGPT-3.5. Но для базовых задач на русском — вполне сносно.

Кому это вообще надо

LFM2.5-230M — инструмент для тех, кто устал от «нажмите кнопку и ждите ответа из облака». Если вы собираете AI-собеседника для звонков мошенникам или делаете робота, который не должен зависнуть при потере сети — берите эту модель. Она стоит в одном ряду с Falcon-H1-Tiny по доступности, но даёт в разы больше осмысленного выхлопа.

В конце концов, 2026 год на дворе. LLM за 230M параметров на Raspberry Pi — это уже не «вау, смотрите», а «ну да, норм, чего ты хотел?». Но именно такие вещи двигают edge-AI в массы. И это круто.

Подписаться на канал

LFM2.5-230M: Как я поселил языковую модель на Raspberry Pi и она не сдохла