Ожидали GPU-революцию. Получили умные тостеры
Лас-Вегас, январь 2024. Тысячи журналистов, горы техники, гул толпы. Энтузиасты локальных языковых моделей ждали одного - анонса новых GPU с гигантской VRAM. Что-то, что позволит запускать Llama 3 70B без танцев с бубном. Вместо этого - роботы-собаки, складные телевизоры и холодильники с ChatGPT. Снова.
Производители железа проигнорили самый горячий тренд 2023-2024 - взрывной рост локальных LLM. Пока сообщество в r/LocalLLaMA ломает голову, как впихнуть 13 миллиардов параметров в 8 ГБ памяти, индустрия показывает нам умные зубные щетки.
Тупик развития: почему новые GPU не решают главную проблему
Забудьте про терафлопсы. Забудьте про количество ядер. Единственная метрика, которая реально важна для локальных LLM - объем видеопамяти. И здесь прогресс остановился.
| Поколение GPU | Макс VRAM (потребительские) | Что можно запустить | Проблема |
|---|---|---|---|
| RTX 30xx (2020) | 24 ГБ (3090) | Llama 2 13B, некоторые 34B с квантованием | Дорого даже на вторичке |
| RTX 40xx (2022) | 24 ГБ (4090) | То же самое + немного больше контекста | Цена выросла, прогресса в VRAM - нет |
| Ожидалось в 2024 | 48-64 ГБ | Llama 3 70B, Mixtral 8x22B без компромиссов | Не появилось. Вообще. |
Производителям выгоднее продавать дорогие карты геймерам, чем делать нишевые решения для ИИ. 4090 стоит как подержанная машина, а ее 24 ГБ - это потолок. Патовая ситуация.
Единственный свет в конце туннеля: Phison AiDaptiv+
Среди моря разочарований на CES мелькнула одна интересная технология. Phison, известная своими SSD-контроллерами, показала AiDaptiv+. Суть проста - использовать часть SSD как расширенную VRAM.
Проблема в том, что нужны специальные SSD с поддержкой этой технологии. И материнские платы. И драйверы под Linux. Пока это прототип, а не готовое решение. Но хотя бы кто-то пытается решить реальную проблему.
Что делать, если апгрейд невозможен: три реальных стратегии
1 Агрессивное квантование - ваш новый лучший друг
Забудьте про запуск моделей в FP16. Это роскошь для облачных провайдеров. На локальной машине работают только квантованные версии. И здесь прогресс колоссальный.
- Q4_K_M - золотая середина. Llama 3 8B влезает в 5 ГБ, качество падает на 2-3% против FP16
- Q3_K_S - для жестких ограничений. 13B модель в 8 ГБ? Реально
- IQ4_XS - новый формат от llama.cpp. Еще лучше сжатие при том же качестве
В нашем обзоре лучших локальных LLM 2025 мы тестировали именно квантованные версии. Разница с оригиналами минимальна для большинства задач.
2 Оптимизация ПО: то, что работает прямо сейчас
Пока индустрия спит, open-source сообщество не дремлет. За последний год появились инструменты, которые выжимают из железа все до последнего мегабайта.
| Инструмент | Что делает | Выигрыш |
|---|---|---|
| llama.cpp | Запуск на CPU/GPU, слоистая загрузка | Запуск моделей больше, чем VRAM |
| vLLM | Оптимизация attention, PagedAttention | В 2-4 раза выше throughput |
| MLC LLM | Компиляция под конкретное железо | До 30% ускорения инференса |
Самый простой способ начать - наша инструкция по запуску локальных LLM. Никакого магического железа не нужно - только RTX 3060 с 12 ГБ и знание, какую кнопку нажать.
3 Смена парадигмы: не больше модель, а умнее
Погоня за параметрами - тупиковый путь. Новые модели 2025 года доказывают: 7B параметров с хорошей архитектурой бьют 13B со старой.
Вместо того чтобы пытаться запустить Llama 3 70B на трех видеокартах, посмотрите на DeepSeek Coder 6.7B. Или на Qwen2.5 7B. Они решают 90% задач, занимая в 10 раз меньше памяти.
Главный урок 2024: локальный ИИ - это про оптимизацию, а не про грубую силу. Пока индустрия не предложит доступные карты с 48+ ГБ VRAM, единственный путь - умное ПО и квантование.
Что ждет нас в 2025: прогноз от того, кто ошибся с CES
После провала CES с прогнозами стало сложнее. Но тенденции очевидны.
- Никакого прорыва в железе не будет. Производители сосредоточены на облачных решениях. Потребительский сегмент получает крошки со стола
- Квантование станет стандартом. Новые форматы сжатия без потерь появятся каждые 3-4 месяца
- Специализированные модели вытеснят универсальные. Зачем запускать гиганта для кодинга, если есть оптимизированные версии с Tool Calling?
- Гибридные решения. Часть модели на GPU, часть на SSD через AiDaptiv+, часть в облаке для редких вызовов
Самая интересная метаморфоза произойдет не в железе, а в головах. Энтузиасты перестанут мечтать о RTX 5090 с 48 ГБ (ее не будет) и начнут использовать то, что есть. А есть много.
Пока Nvidia и AMD игнорируют локальный ИИ, сообщество создает свои решения. Как показали итоги 2025, самые важные прорывы происходят в open-source, а не в лабораториях гигантов.
Мой совет? Перестаньте ждать волшебную видеокарту. Ее не будет. Возьмите RTX 4060 Ti с 16 ГБ (да, это максимум для нормальных денег), установите llama.cpp и запустите Qwen2.5 7B в IQ4_XS. Работает? Работает. Быстро? Достаточно. Дешево? Относительно.
CES 2024 разочаровал, потому что мы ждали не того. Ждали железа. А нужно было ждать софта. Он пришел. Просто не из Лас-Вегаса.