578 токенов в секунду. На обычном процессоре

Цифра кажется ошибкой. Опечаткой. Шуткой. Но нет - LFM 2.5 1.2B действительно выдает 578 токенов в секунду на Intel Core i9-13900K. Для сравнения: та же Llama 3.1 8B едва дотягивает до 120. Разница в пять раз при вдвое меньшем потреблении памяти.

LFM 2.5 1.2B - это 1.2 миллиарда параметров против 7-8 миллиардов у большинства "компактных" моделей. Но работает быстрее. Значительно быстрее.

Что внутри этой ракеты?

Модель от Liquid AI использует архитектуру Liquid State Space Model (LSSM). Если коротко - это не совсем трансформер. Точнее, совсем не трансформер. Вместо внимания между токенами здесь работает механизм, напоминающий дифференциальные уравнения.

Технические детали сложны, но результат прост: модель требует меньше операций на токен. Значительно меньше. И это работает не только на бумаге.

Модель	Параметры	Токенов/сек (CPU)	Память (GGUF Q4)
LFM 2.5 1.2B	1.2B	578	~800MB
Llama 3.2 3B	3B	142	~2GB
Qwen2.5 1.5B	1.5B	310	~1GB
Gemma 2 2B	2B	195	~1.3GB

"А на Raspberry Pi?" - спросите вы. Отвечаю: да

Вот где начинается настоящее безумие. 1.2 миллиарда параметров в GGUF Q4 занимают около 800 мегабайт. Raspberry Pi 5 с 8GB RAM спокойно держит модель в оперативке. Без swap. Без танцев с бубном.

Помните нашу статью про запуск LLM на Raspberry Pi и проблему с microSD? С LFM 2.5 эта проблема исчезает. Модель помещается в RAM - swap не нужен. Карта памяти живет долго и счастливо.

Важный момент: официальных бенчмарков для Raspberry Pi пока нет. Но по предварительным тестам - 40-60 токенов в секунду вполне достижимо. Для сравнения: Llama 3.2 3B на той же Raspberry Pi дает 8-12 токенов.

Что умеет эта молния?

Тут начинаются компромиссы. 1.2 миллиарда параметров - это не 70 миллиардов. Контекстное окно - 8192 токена (неплохо!). Качество генерации... скажем так, адекватное для своих размеров.

Модель справляется:

С простыми вопросами-ответами
С summarization коротких текстов
С генерацией простого кода (Python, JavaScript)
С переводом на базовом уровне

Не справляется:

Со сложными логическими цепочками
С глубоким анализом длинных документов
С творческими задачами (поэзия, художественные тексты)

Практика: где это применить?

Представьте чат-бота, который отвечает мгновенно. Не через 2-3 секунды, а пока вы дописываете сообщение. Или локальный ассистент в приложении, который не тормозит интерфейс.

Конкретные сценарии:

1 Локальный препроцессинг документов

Загружаете PDF, модель мгновенно извлекает основные тезисы. Без отправки в облако. Без подписок. Просто работает.

2 Автодополнение в IDE

Не Copilot, конечно. Но для простых шаблонов, комментариев, документации - вполне. И все локально, без утечек кода.

3 Edge-устройства и IoT

Тот самый Raspberry Pi в умном доме, который понимает голосовые команды без облака. Или промышленный контроллер с локальной обработкой логов.

Как запустить? Проще некуда

Если вы уже пользовались llama.cpp или Ollama - никаких сюрпризов. Модель доступна в формате GGUF, загружается как любая другая.

💡

Для максимальной скорости используйте GGUF Q4_K_M. Качество почти как у Q5, но быстрее и меньше памяти.

Кому это нужно? (Спойлер: почти всем)

Разработчикам, которые устали ждать ответа от локальных моделей. Энтузиастам Raspberry Pi, которые хотят ИИ без облаков. Компаниям, которым нужна приватность, но нет бюджета на серверы с A100.

Особенно интересно будет тем, кто читал нашу статью про bare-metal инференс и Memory Wall. LFM 2.5 эту стену просто перепрыгивает.

А что с альтернативами?

Есть Gemma 3 270M - еще меньше, но и значительно слабее. Есть Qwen2.5 1.5B - хороший баланс, но медленнее. Есть более крупные модели, но они требуют swap и тормозят.

LFM 2.5 занимает уникальную нишу: достаточно умная, чтобы быть полезной, и достаточно быстрая, чтобы не раздражать.

Подводные камни (куда без них)

Английский язык модель знает лучше, чем русский. Поддержка русского есть, но качество заметно ниже. Если нужен русский - придется дообучать.

Архитектура LSSM пока экзотична. Не все инструменты поддерживают ее из коробки. С llama.cpp работает, но некоторые продвинутые фичи могут не поддерживаться.

Внимание: модель новая. Сообщество еще не наработало лучших практик, промптов, тонкой настройки. Придется экспериментировать самостоятельно.

Что дальше?

Liquid AI обещает версию с 3 миллиардами параметров уже в этом году. Если сохранят пропорции скорости и качества - это может изменить правила игры для edge-устройств.

А пока - попробуйте. Загрузите GGUF-файл, запустите на своем железе. Увидите 500+ токенов в секунду. Улыбнетесь. Потому что будущее локального ИИ должно быть быстрым. Или не должно быть вообще.

P.S. Если запустите на Raspberry Pi - напишите в комментариях, сколько токенов получилось. Похоже, у нас появился новый чемпион для малинки.

LFM 2.5 1.2B: языковая модель, которая обгоняет мысль