CES 2024 разочаровал локальные LLM - анализ тупика железа и реальных решений | AiManual
AiManual Logo Ai / Manual.
09 Янв 2026 Новости

CES 2024: почему энтузиасты локального AI остались с пустыми руками

Обзор почему CES 2024 не показал прорыва в аппаратном ускорении ИИ. Альтернативы апгрейду: квантование, оптимизация ПО, Phison AiDaptiv+. Что делать, если желез

Ожидали GPU-революцию. Получили умные тостеры

Лас-Вегас, январь 2024. Тысячи журналистов, горы техники, гул толпы. Энтузиасты локальных языковых моделей ждали одного - анонса новых GPU с гигантской VRAM. Что-то, что позволит запускать Llama 3 70B без танцев с бубном. Вместо этого - роботы-собаки, складные телевизоры и холодильники с ChatGPT. Снова.

Производители железа проигнорили самый горячий тренд 2023-2024 - взрывной рост локальных LLM. Пока сообщество в r/LocalLLaMA ломает голову, как впихнуть 13 миллиардов параметров в 8 ГБ памяти, индустрия показывает нам умные зубные щетки.

Тупик развития: почему новые GPU не решают главную проблему

Забудьте про терафлопсы. Забудьте про количество ядер. Единственная метрика, которая реально важна для локальных LLM - объем видеопамяти. И здесь прогресс остановился.

Поколение GPU Макс VRAM (потребительские) Что можно запустить Проблема
RTX 30xx (2020) 24 ГБ (3090) Llama 2 13B, некоторые 34B с квантованием Дорого даже на вторичке
RTX 40xx (2022) 24 ГБ (4090) То же самое + немного больше контекста Цена выросла, прогресса в VRAM - нет
Ожидалось в 2024 48-64 ГБ Llama 3 70B, Mixtral 8x22B без компромиссов Не появилось. Вообще.

Производителям выгоднее продавать дорогие карты геймерам, чем делать нишевые решения для ИИ. 4090 стоит как подержанная машина, а ее 24 ГБ - это потолок. Патовая ситуация.

Единственный свет в конце туннеля: Phison AiDaptiv+

Среди моря разочарований на CES мелькнула одна интересная технология. Phison, известная своими SSD-контроллерами, показала AiDaptiv+. Суть проста - использовать часть SSD как расширенную VRAM.

💡
Технология работает через драйвер, который прозрачно кэширует менее используемые веса модели на NVMe. Задержки выше, чем у GDDR6, но в 10-20 раз ниже, чем при традиционной подкачке через системную память. Для квантованных моделей типа Q4_K_M разница почти незаметна.

Проблема в том, что нужны специальные SSD с поддержкой этой технологии. И материнские платы. И драйверы под Linux. Пока это прототип, а не готовое решение. Но хотя бы кто-то пытается решить реальную проблему.

Что делать, если апгрейд невозможен: три реальных стратегии

1 Агрессивное квантование - ваш новый лучший друг

Забудьте про запуск моделей в FP16. Это роскошь для облачных провайдеров. На локальной машине работают только квантованные версии. И здесь прогресс колоссальный.

  • Q4_K_M - золотая середина. Llama 3 8B влезает в 5 ГБ, качество падает на 2-3% против FP16
  • Q3_K_S - для жестких ограничений. 13B модель в 8 ГБ? Реально
  • IQ4_XS - новый формат от llama.cpp. Еще лучше сжатие при том же качестве

В нашем обзоре лучших локальных LLM 2025 мы тестировали именно квантованные версии. Разница с оригиналами минимальна для большинства задач.

2 Оптимизация ПО: то, что работает прямо сейчас

Пока индустрия спит, open-source сообщество не дремлет. За последний год появились инструменты, которые выжимают из железа все до последнего мегабайта.

Инструмент Что делает Выигрыш
llama.cpp Запуск на CPU/GPU, слоистая загрузка Запуск моделей больше, чем VRAM
vLLM Оптимизация attention, PagedAttention В 2-4 раза выше throughput
MLC LLM Компиляция под конкретное железо До 30% ускорения инференса

Самый простой способ начать - наша инструкция по запуску локальных LLM. Никакого магического железа не нужно - только RTX 3060 с 12 ГБ и знание, какую кнопку нажать.

3 Смена парадигмы: не больше модель, а умнее

Погоня за параметрами - тупиковый путь. Новые модели 2025 года доказывают: 7B параметров с хорошей архитектурой бьют 13B со старой.

Вместо того чтобы пытаться запустить Llama 3 70B на трех видеокартах, посмотрите на DeepSeek Coder 6.7B. Или на Qwen2.5 7B. Они решают 90% задач, занимая в 10 раз меньше памяти.

Главный урок 2024: локальный ИИ - это про оптимизацию, а не про грубую силу. Пока индустрия не предложит доступные карты с 48+ ГБ VRAM, единственный путь - умное ПО и квантование.

Что ждет нас в 2025: прогноз от того, кто ошибся с CES

После провала CES с прогнозами стало сложнее. Но тенденции очевидны.

  • Никакого прорыва в железе не будет. Производители сосредоточены на облачных решениях. Потребительский сегмент получает крошки со стола
  • Квантование станет стандартом. Новые форматы сжатия без потерь появятся каждые 3-4 месяца
  • Специализированные модели вытеснят универсальные. Зачем запускать гиганта для кодинга, если есть оптимизированные версии с Tool Calling?
  • Гибридные решения. Часть модели на GPU, часть на SSD через AiDaptiv+, часть в облаке для редких вызовов

Самая интересная метаморфоза произойдет не в железе, а в головах. Энтузиасты перестанут мечтать о RTX 5090 с 48 ГБ (ее не будет) и начнут использовать то, что есть. А есть много.

Пока Nvidia и AMD игнорируют локальный ИИ, сообщество создает свои решения. Как показали итоги 2025, самые важные прорывы происходят в open-source, а не в лабораториях гигантов.

Мой совет? Перестаньте ждать волшебную видеокарту. Ее не будет. Возьмите RTX 4060 Ti с 16 ГБ (да, это максимум для нормальных денег), установите llama.cpp и запустите Qwen2.5 7B в IQ4_XS. Работает? Работает. Быстро? Достаточно. Дешево? Относительно.

CES 2024 разочаровал, потому что мы ждали не того. Ждали железа. А нужно было ждать софта. Он пришел. Просто не из Лас-Вегаса.