Почему CES 2024 разочаровал энтузиастов локальных LLM?

Производители не представили GPU с увеличенным объемом VRAM, который критически важен для запуска больших языковых моделок. Вместо этого фокус был на потребительской электронике.

Какая технология с CES 2024 может помочь с запуском LLM?

Phison AiDaptiv+ позволяет использовать SSD как расширенную видеопамять, но технология требует специальных накопителей и пока находится на стадии прототипа.

Что делать, если нет денег на апгрейд железа?

Использовать агрессивное квантование моделей (форматы Q4_K_M, Q3_K_S), оптимизировать ПО через llama.cpp и vLLM, выбирать специализированные компактные модели вместо универсальных гигантов.

CES 2024 разочаровал локальные LLM - анализ тупика железа и реальных решений

Ожидали GPU-революцию. Получили умные тостеры

Лас-Вегас, январь 2024. Тысячи журналистов, горы техники, гул толпы. Энтузиасты локальных языковых моделей ждали одного - анонса новых GPU с гигантской VRAM. Что-то, что позволит запускать Llama 3 70B без танцев с бубном. Вместо этого - роботы-собаки, складные телевизоры и холодильники с ChatGPT. Снова.

Производители железа проигнорили самый горячий тренд 2023-2024 - взрывной рост локальных LLM. Пока сообщество в r/LocalLLaMA ломает голову, как впихнуть 13 миллиардов параметров в 8 ГБ памяти, индустрия показывает нам умные зубные щетки.

Тупик развития: почему новые GPU не решают главную проблему

Забудьте про терафлопсы. Забудьте про количество ядер. Единственная метрика, которая реально важна для локальных LLM - объем видеопамяти. И здесь прогресс остановился.

Поколение GPU	Макс VRAM (потребительские)	Что можно запустить	Проблема
RTX 30xx (2020)	24 ГБ (3090)	Llama 2 13B, некоторые 34B с квантованием	Дорого даже на вторичке
RTX 40xx (2022)	24 ГБ (4090)	То же самое + немного больше контекста	Цена выросла, прогресса в VRAM - нет
Ожидалось в 2024	48-64 ГБ	Llama 3 70B, Mixtral 8x22B без компромиссов	Не появилось. Вообще.

Производителям выгоднее продавать дорогие карты геймерам, чем делать нишевые решения для ИИ. 4090 стоит как подержанная машина, а ее 24 ГБ - это потолок. Патовая ситуация.

Единственный свет в конце туннеля: Phison AiDaptiv+

Среди моря разочарований на CES мелькнула одна интересная технология. Phison, известная своими SSD-контроллерами, показала AiDaptiv+. Суть проста - использовать часть SSD как расширенную VRAM.

💡

Технология работает через драйвер, который прозрачно кэширует менее используемые веса модели на NVMe. Задержки выше, чем у GDDR6, но в 10-20 раз ниже, чем при традиционной подкачке через системную память. Для квантованных моделей типа Q4_K_M разница почти незаметна.

Проблема в том, что нужны специальные SSD с поддержкой этой технологии. И материнские платы. И драйверы под Linux. Пока это прототип, а не готовое решение. Но хотя бы кто-то пытается решить реальную проблему.

Что делать, если апгрейд невозможен: три реальных стратегии

1 Агрессивное квантование - ваш новый лучший друг

Забудьте про запуск моделей в FP16. Это роскошь для облачных провайдеров. На локальной машине работают только квантованные версии. И здесь прогресс колоссальный.

Q4_K_M - золотая середина. Llama 3 8B влезает в 5 ГБ, качество падает на 2-3% против FP16
Q3_K_S - для жестких ограничений. 13B модель в 8 ГБ? Реально
IQ4_XS - новый формат от llama.cpp. Еще лучше сжатие при том же качестве

В нашем обзоре лучших локальных LLM 2025 мы тестировали именно квантованные версии. Разница с оригиналами минимальна для большинства задач.

2 Оптимизация ПО: то, что работает прямо сейчас

Пока индустрия спит, open-source сообщество не дремлет. За последний год появились инструменты, которые выжимают из железа все до последнего мегабайта.

Инструмент	Что делает	Выигрыш
llama.cpp	Запуск на CPU/GPU, слоистая загрузка	Запуск моделей больше, чем VRAM
vLLM	Оптимизация attention, PagedAttention	В 2-4 раза выше throughput
MLC LLM	Компиляция под конкретное железо	До 30% ускорения инференса

Самый простой способ начать - наша инструкция по запуску локальных LLM. Никакого магического железа не нужно - только RTX 3060 с 12 ГБ и знание, какую кнопку нажать.

3 Смена парадигмы: не больше модель, а умнее

Погоня за параметрами - тупиковый путь. Новые модели 2025 года доказывают: 7B параметров с хорошей архитектурой бьют 13B со старой.

Вместо того чтобы пытаться запустить Llama 3 70B на трех видеокартах, посмотрите на DeepSeek Coder 6.7B. Или на Qwen2.5 7B. Они решают 90% задач, занимая в 10 раз меньше памяти.

Главный урок 2024: локальный ИИ - это про оптимизацию, а не про грубую силу. Пока индустрия не предложит доступные карты с 48+ ГБ VRAM, единственный путь - умное ПО и квантование.

Что ждет нас в 2025: прогноз от того, кто ошибся с CES

После провала CES с прогнозами стало сложнее. Но тенденции очевидны.

Никакого прорыва в железе не будет. Производители сосредоточены на облачных решениях. Потребительский сегмент получает крошки со стола
Квантование станет стандартом. Новые форматы сжатия без потерь появятся каждые 3-4 месяца
Специализированные модели вытеснят универсальные. Зачем запускать гиганта для кодинга, если есть оптимизированные версии с Tool Calling?
Гибридные решения. Часть модели на GPU, часть на SSD через AiDaptiv+, часть в облаке для редких вызовов

Самая интересная метаморфоза произойдет не в железе, а в головах. Энтузиасты перестанут мечтать о RTX 5090 с 48 ГБ (ее не будет) и начнут использовать то, что есть. А есть много.

Пока Nvidia и AMD игнорируют локальный ИИ, сообщество создает свои решения. Как показали итоги 2025, самые важные прорывы происходят в open-source, а не в лабораториях гигантов.

Мой совет? Перестаньте ждать волшебную видеокарту. Ее не будет. Возьмите RTX 4060 Ti с 16 ГБ (да, это максимум для нормальных денег), установите llama.cpp и запустите Qwen2.5 7B в IQ4_XS. Работает? Работает. Быстро? Достаточно. Дешево? Относительно.

CES 2024 разочаровал, потому что мы ждали не того. Ждали железа. А нужно было ждать софта. Он пришел. Просто не из Лас-Вегаса.

CES 2024: почему энтузиасты локального AI остались с пустыми руками