Год, который изменил всё
Помните, как в начале 2025 года запуск модели уровня DeepSeek требовал сервера за $6000? Сегодня вы получаете сравнимую производительность на мини-ПК за $600. Прогресс не просто быстрый - он ошеломляющий.
Всего за 12 месяцев стоимость локального запуска больших языковых моделей упала в 10 раз. Это не постепенная эволюция - это революция в доступности ИИ.
Что сломалось в старой экономике?
Раньше для локального ИИ нужно было: много видеопамяти, мощные GPU, сложные системы охлаждения. Модели были неоптимизированными, а фреймворки - жадными до ресурсов. DeepSeek, даже в версии V3.2, требовал минимум 24 ГБ VRAM для комфортной работы.
Сегодня Qwen 3.5-27B работает на 8 ГБ видеопамяти. Или даже на CPU с достаточным ОЗУ. Как показывают тесты, эта модель часто бьет более крупных конкурентов на STEM-задачах.
Железо: от серверов к мини-ПК
Тогда: система на базе RTX 4090 (или двух), мощный процессор, блок питания 1000W. Цена - от $6000.
Сейчас: мини-ПК с мобильным GPU или даже встроенной графикой. Например, системы на Intel Arc или AMD RDNA3 с 8-16 ГБ памяти. Цена - около $600.
| Компонент | 2025 (DeepSeek) | 2026 (Qwen 3.5) |
|---|---|---|
| Стоимость системы | $6000+ | $600 |
| VRAM | 24 ГБ+ | 8 ГБ |
| Энергопотребление | 500W+ | 65W |
| Скорость генерации | 30-40 токенов/с | 15-25 токенов/с |
Да, скорость немного ниже. Но для большинства задач - чаты, анализ текста, программирование - 20 токенов в секунду более чем достаточно. А когда система стоит в 10 раз дешевле и потребляет как лампочка, это меняет правила игры.
Почему модели стали эффективнее?
- Квантование: 4-битное и даже 3-битное квантование стало стандартом. Модели теряют 1-2% качества, но экономят 70% памяти.
- Архитектурные улучшения: такие как DeepGEMM в DeepSeek, которые ускоряют вычисления на ограниченном железе.
- Оптимизация под потребительское железо: разработчики теперь тестируют модели не только на серверных GPU, но и на игровых картах и встроенных графических процессорах.
А что с DeepSeek сегодня?
DeepSeek не стоит на месте. Грядет DeepSeek-V4, которая обещает быть еще более эффективной. Но даже текущая V3.2, как мы писали ранее, уже работает на ноутбуках с 16 ГБ ОЗУ.
Однако для локального запуска без компромиссов Qwen 3.5-27B стала золотым стандартом. Она достаточно мала, чтобы работать везде, и достаточно умна, чтобы решать реальные задачи.
Что дальше? Прогноз на 2027
Если тенденция сохранится, к концу 2026 года мы увидим модели уровня GPT-4, работающие на смартфонах. Стоимость inference упадет еще в 2-3 раза.
Уже сейчас за $1500 можно собрать систему для автономных AI-агентов, которые работают 24/7 без облачных платежей.
Совет: не ждите следующего прорыва. Купите мини-ПК за $600, установите Qwen 3.5-27B и начните использовать локальный ИИ сегодня. Когда через год появится что-то лучше, вы уже будете иметь опыт и рабочий процесс, а не просто наблюдать со стороны.
И помните: через год мы, возможно, будем смеяться над тем, что считали $600 дорогим для локального ИИ.