LFM2-24B-A2B: 40 токенов/с на ноутбуке | Обзор оптимизированной модели | AiManual
AiManual Logo Ai / Manual.
04 Мар 2026 Инструмент

LFM2-24B-A2B: как получить 40 токенов/с на ноутбуке с iGPU

Обзор LFM2-24B-A2B — GGUF-модели, которая дает 40 токенов/с на ноутбуке с iGPU. Сравнение с альтернативами, примеры использования и настройки на 04.03.2026.

💡
Обновление на 04.03.2026: LFM2-24B-A2B — последняя версия модели, оптимизированная под Intel Arc и Xe iGPU. Скорость до 40 токенов/с подтверждена на ноутбуках с Core Ultra 7 155H и выше.

Это не магия. Это просто хорошая инженерия

Забудьте про 3-5 токенов в секунду на интегрированной графике. LFM2-24B-A2B — это 24.5 миллиарда параметров, которые работают на ноутбуке как на десктопной видеокарте. Разработчики взяли архитектуру LFM2 (Lightning-Fast Model 2) и переработали её под iGPU до состояния, когда можно вести диалог без ощутимых пауз.

Что внутри и почему это летает

Модель использует модифицированную архитектуру с 24.5B параметрами, но секрет не в размере. А в том, как её упаковали:

  • Квантование до Q4_K_M GGUF — баланс между качеством и скоростью
  • Оптимизированные ядра для Intel Xe Matrix Extensions (XMX)
  • Пакетная обработка запросов на уровне драйвера
  • Автоматическое распределение слоёв между CPU и iGPU

Важно: модель заточена именно под Intel iGPU последних поколений (Arc, Xe-LPG). На AMD Radeon 780M или более старых Intel Iris результаты будут скромнее — около 15-25 токенов/с.

На что способна эта штука

Это не игрушка. LFM2-24B-A2B справляется с задачами, которые раньше требовали облачных API или дорогого железа:

Генерация кода без подключения к интернету

Пишет функции на Python, JavaScript, Go. Понимает контекст проекта и не предлагает устаревшие методы (проверено на примере async/await в Python — использует asyncio, а не старые callback-и).

Анализ документов в реальном времени

Загружаете PDF на 50 страниц — модель выделяет ключевые тезисы, ищет противоречия, готовит краткое содержание. Контекстное окно — 32к токенов.

Диалог без раздражающих пауз

Скорость 40 токенов/с — это когда модель печатает быстрее, чем вы читаете. Диалог становится естественным, не нужно ждать по 10-20 секунд за каждым ответом.

Сравнение: что было раньше и что стало сейчас

Полтора года назад на iGPU запускали разве что TinyLlama на 1.1B параметров. Сегодня ситуация изменилась:

Модель Параметры Скорость (iGPU) Качество
Llama 3.2 11B (2024) 11B 12-18 токенов/с Хорошее
Qwen 2.5 14B 14B 15-22 токенов/с Отличное
LFM2-24B-A2B (2026) 24.5B 35-40 токенов/с Превосходное
DeepSeek-V3.2-Lite 16B 20-28 токенов/с Хорошее

Разница в 2-3 раза по сравнению с моделями 2024 года. И это при вдвое большем размере модели. (Кстати, если нужна максимальная производительность на нескольких GPU, посмотрите сборку на 16 карт MI50 за 15 тысяч — но это уже для серьёзных ферм).

Кому это действительно нужно

Не всем. Но некоторым — критически.

Разработчики без доступа к облачным API

Когда нужна генерация кода или анализ логов, но компания запрещает отправлять данные в OpenAI. LFM2-24B-A2B работает локально, данные никуда не утекают.

Студенты и исследователи

Нет бюджета на RTX 4090? Ноутбук с Core Ultra 7 стоит в разы дешевле, а производительности хватает для экспериментов с NLP. Для более серьёзных задач есть бюджетная 4-GPU ферма, но это уже стационарное решение.

Консультанты и аналитики

Работа с документами в поездках, самолётах, отелях. Когда интернета нет или он медленный, а анализ нужен здесь и сейчас.

Альтернативы: когда LFM2-24B-A2B — не лучший выбор

Если у вас уже есть дискретная видеокарта (RTX 3060 12GB или новее), возможно, лучше использовать другие модели. Например, Qwen 2.5 32B на RTX 4060 Ti 16GB даст лучшее качество за счёт большего размера модели.

Для экстремальных задач с большим контекстом (>128k) потребуется несколько GPU. Здесь помогает распределённая обработка на 2x RTX 3090 или специальные сборки.

А если хочется максимальной производительности на ограниченном бюджете, присмотритесь к Intel Arc Pro B60 — это отдельная карта, но тоже бюджетный вариант.

Предупреждение: не пытайтесь запускать LFM2-24B-A2B на ноутбуках старше 2023 года. Intel Iris Xe (в Tiger Lake и старше) не поддерживает XMX-инструкции, и скорость будет в 3-4 раза ниже.

Где взять и как настроить

Модель доступна на Hugging Face в формате GGUF. Ищите "LFM2-24B-A2B-Q4_K_M.gguf" — это оптимальная версия для баланса скорости и качества.

Для запуска используйте LM Studio 0.3.1+ или llama.cpp с поддержкой Metal для macOS или Vulkan для Windows/Linux. В настройках обязательно укажите использование iGPU и выделите 6-8 ГБ системной памяти под слои модели.

💡
Совет: если у вас ноутбук с гибридной графикой (Intel iGPU + NVIDIA dGPU), отключите дискретную карту в настройках драйвера. Модель оптимизирована под iGPU, а переключение между адаптерами создаёт задержки.

Что дальше? Будущее локального AI на ноутбуках

LFM2-24B-A2B — не предел. К концу 2026 года ожидаются модели с 30-40B параметрами, работающие на iGPU со скоростью 50+ токенов/с. Аппаратное ускорение матричных операций становится стандартом даже в бюджетных ноутбуках.

Интересно, что производители железа начали учитывать требования LLM-сообщества. Новые Intel Core Ultra уже имеют выделенные блоки для AI, а AMD готовит аналоги для Ryzen 8000 Mobile. Это меняет правила игры: теперь мощная LLM-ферма может быть не только в дата-центре, но и в рюкзаке.

И да, если мечтаете о мобильной AI-станции, но бюджет не $17k, посмотрите Mini PC с 68 ГБ VRAM. Это уже следующий уровень.

Подписаться на канал