578 токенов в секунду. На обычном процессоре
Цифра кажется ошибкой. Опечаткой. Шуткой. Но нет - LFM 2.5 1.2B действительно выдает 578 токенов в секунду на Intel Core i9-13900K. Для сравнения: та же Llama 3.1 8B едва дотягивает до 120. Разница в пять раз при вдвое меньшем потреблении памяти.
LFM 2.5 1.2B - это 1.2 миллиарда параметров против 7-8 миллиардов у большинства "компактных" моделей. Но работает быстрее. Значительно быстрее.
Что внутри этой ракеты?
Модель от Liquid AI использует архитектуру Liquid State Space Model (LSSM). Если коротко - это не совсем трансформер. Точнее, совсем не трансформер. Вместо внимания между токенами здесь работает механизм, напоминающий дифференциальные уравнения.
Технические детали сложны, но результат прост: модель требует меньше операций на токен. Значительно меньше. И это работает не только на бумаге.
| Модель | Параметры | Токенов/сек (CPU) | Память (GGUF Q4) |
|---|---|---|---|
| LFM 2.5 1.2B | 1.2B | 578 | ~800MB |
| Llama 3.2 3B | 3B | 142 | ~2GB |
| Qwen2.5 1.5B | 1.5B | 310 | ~1GB |
| Gemma 2 2B | 2B | 195 | ~1.3GB |
"А на Raspberry Pi?" - спросите вы. Отвечаю: да
Вот где начинается настоящее безумие. 1.2 миллиарда параметров в GGUF Q4 занимают около 800 мегабайт. Raspberry Pi 5 с 8GB RAM спокойно держит модель в оперативке. Без swap. Без танцев с бубном.
Помните нашу статью про запуск LLM на Raspberry Pi и проблему с microSD? С LFM 2.5 эта проблема исчезает. Модель помещается в RAM - swap не нужен. Карта памяти живет долго и счастливо.
Важный момент: официальных бенчмарков для Raspberry Pi пока нет. Но по предварительным тестам - 40-60 токенов в секунду вполне достижимо. Для сравнения: Llama 3.2 3B на той же Raspberry Pi дает 8-12 токенов.
Что умеет эта молния?
Тут начинаются компромиссы. 1.2 миллиарда параметров - это не 70 миллиардов. Контекстное окно - 8192 токена (неплохо!). Качество генерации... скажем так, адекватное для своих размеров.
Модель справляется:
- С простыми вопросами-ответами
- С summarization коротких текстов
- С генерацией простого кода (Python, JavaScript)
- С переводом на базовом уровне
Не справляется:
- Со сложными логическими цепочками
- С глубоким анализом длинных документов
- С творческими задачами (поэзия, художественные тексты)
Практика: где это применить?
Представьте чат-бота, который отвечает мгновенно. Не через 2-3 секунды, а пока вы дописываете сообщение. Или локальный ассистент в приложении, который не тормозит интерфейс.
Конкретные сценарии:
1 Локальный препроцессинг документов
Загружаете PDF, модель мгновенно извлекает основные тезисы. Без отправки в облако. Без подписок. Просто работает.
2 Автодополнение в IDE
Не Copilot, конечно. Но для простых шаблонов, комментариев, документации - вполне. И все локально, без утечек кода.
3 Edge-устройства и IoT
Тот самый Raspberry Pi в умном доме, который понимает голосовые команды без облака. Или промышленный контроллер с локальной обработкой логов.
Как запустить? Проще некуда
Если вы уже пользовались llama.cpp или Ollama - никаких сюрпризов. Модель доступна в формате GGUF, загружается как любая другая.
Кому это нужно? (Спойлер: почти всем)
Разработчикам, которые устали ждать ответа от локальных моделей. Энтузиастам Raspberry Pi, которые хотят ИИ без облаков. Компаниям, которым нужна приватность, но нет бюджета на серверы с A100.
Особенно интересно будет тем, кто читал нашу статью про bare-metal инференс и Memory Wall. LFM 2.5 эту стену просто перепрыгивает.
А что с альтернативами?
Есть Gemma 3 270M - еще меньше, но и значительно слабее. Есть Qwen2.5 1.5B - хороший баланс, но медленнее. Есть более крупные модели, но они требуют swap и тормозят.
LFM 2.5 занимает уникальную нишу: достаточно умная, чтобы быть полезной, и достаточно быстрая, чтобы не раздражать.
Подводные камни (куда без них)
Английский язык модель знает лучше, чем русский. Поддержка русского есть, но качество заметно ниже. Если нужен русский - придется дообучать.
Архитектура LSSM пока экзотична. Не все инструменты поддерживают ее из коробки. С llama.cpp работает, но некоторые продвинутые фичи могут не поддерживаться.
Внимание: модель новая. Сообщество еще не наработало лучших практик, промптов, тонкой настройки. Придется экспериментировать самостоятельно.
Что дальше?
Liquid AI обещает версию с 3 миллиардами параметров уже в этом году. Если сохранят пропорции скорости и качества - это может изменить правила игры для edge-устройств.
А пока - попробуйте. Загрузите GGUF-файл, запустите на своем железе. Увидите 500+ токенов в секунду. Улыбнетесь. Потому что будущее локального ИИ должно быть быстрым. Или не должно быть вообще.
P.S. Если запустите на Raspberry Pi - напишите в комментариях, сколько токенов получилось. Похоже, у нас появился новый чемпион для малинки.