Вот вам ироничный парадокс 2026 года: нейросети становятся умнее, а индустрия, которая их кормит, – все тупее в решении своих базовых проблем. Мы учим модели писать симфонии и открывать лекарства, но не можем наладить производство банальной памяти и не дать дата-центрам выпить всю воду из окрестных рек.
HBM3e: когда 24 ГБ на чип – это не роскошь, а недостижимая мечта
Забудьте про обычную GDDR6. В больших AI-моделях сейчас главное – High Bandwidth Memory третье поколения (HBM3) и его обновленная версия HBM3e. Пропускная способность под 1 ТБ/с. Задержки минимальные. И дефицит – запредельный.
Спрос на HBM для ускорителей AI в 2025 году превысил предложение на 40%. И это до выхода новых Blackwell Ultra от Nvidia и MI400X от AMD, которые требуют еще больше памяти на чип. Прогнозы SK hynix? Баланс не раньше конца 2027-го.
Почему так? Производство HBM – это высшая лига полупроводников. Нужна 3D-упаковка (TSV), сверхчистые помещения и такие допуски, что волосок с головы кажется бревном. Основные игроки – SK hynix, Samsung, Micron – просто физически не успевают строить новые линии. А те, что есть, уже забиты заказами от гиперскалеров вроде Amazon, Microsoft и Google.
Результат? Цена на серверные GPU с HBM3e взлетела на 70% за последние 18 месяцев. Ожидание поставок – от 36 до 52 недель. И это если вы не стартап, а что-то вроде OpenAI или Anthropic. Остальные стоят в очереди с протянутой рукой.
Энергетический запой: когда один инференс GPT-5 равен месяцу работы 1000 домохозяйств
Пока все обсуждают параметры новых моделей, я смотрю на их счета за электричество. И там ад. Тренировка флагманской модели в 2026 году съедает энергии больше, чем небольшой город за год. А инференс? Это постоянный фон, как гул десятков виртуальных электростанций.
| Операция / Модель | Расчетное потребление (МВт·ч) | Эквивалент в CO₂ (тонн, сеть ЕС) |
|---|---|---|
| Полная тренировка GPT-5 (оценка) | ~4,200,000 | ~1,260 |
| Ежедневный инференс Gemini 2.0 Ultra (глобально) | ~85,000 | ~25.5 |
| Годовое потребление дата-центра AI-класса (средний) | ~700,000 | ~210 |
И это только электричество. Забудьте про "экологичность" AI. Новые дата-центры под AI – это еще и колоссальные потребители воды для охлаждения. Один только кластер в засушливом регионе США может выпивать за год столько, сколько нужно для снабжения 30,000 человек. Звучит как сюжет для антиутопии, но это реальность апреля 2026-го.
Что бесит больше всего?
Гиперскалеры строят гигантские фермы рядом с ГЭС и АЭС, скупая зеленую энергию по долгосрочным контрактам. Результат? Местные жители и малый бизнес остаются с возросшими тарифами и сниженной доступностью. AI становится привилегированным энергоаристократом.
Последствия: великое торможение и ренессанс маленьких моделей
Вы думаете, что следующий GPT будет в 10 раз умнее? Забудьте. Лаборатории упираются в физические и финансовые потолки.
- Замораживание архитектурных скачков. Нет смысла проектировать модель на 10 триллионов параметров, если под нее нет железа. Фокус смещается на оптимизацию того, что есть: сжатие KV-кеша, улучшение алгоритмов внимания, лучшее квантование.
- Власть гиперскалеров. Только у Google, Microsoft, Amazon и Meta есть ресурсы и долгосрочные контракты на HBM и энергию. Независимые игроки отстают. Инновационный ландшафт становится олигополистическим.
- Регуляторный прессинг. В ЕС и некоторых штатах США уже вводят прямые квоты на энергопотребление дата-центров. Строительство новых хабов замедляется. Местные власти требуют компенсаций за нагрузку на инфраструктуру.
И тут происходит неожиданное: золотой час для локальных и малых моделей. Развернуть 7B- или 13B-параметровую модель на собственном сервере с 24-48 ГБ VRAM становится не только возможно, но и экономически осмысленно. Особенно с такими инструментами, как Open WebUI и продвинутым квантованием.
Кто виноват и что делать (если вы не Илон Маск)?
Виноваты все: инвесторы, требующие роста любой ценой; инженеры, гонящиеся за benchmark'ами; и мы, пользователи, жаждущие мгновенных и безупречных ответов от чат-ботов. Система поощряет расточительство.
Но есть и свет в конце тоннеля (пусть и от энергосберегающего светодиода).
- Архитектурный бунт. MoE (Mixture of Experts) из экзотики становится мейнстримом. Зачем держать в памяти все 500 миллиардов параметров, если для ответа на вопрос о погоде активны только 20 миллиардов? Это экономит и память, и вычисления.
- Специализированное железо. Гонка за универсальными GPU замедляется. На сцену выходят ASIC и нейроморфные чипы, заточенные под конкретные типы операций AI. Они эффективнее в разы.
- Ценообразование по энергии. Облачные провайдеры начинают вводить тарифы, явно привязанные к пиковому энергопотреблению и углеродному следу вашего инференса. Будет стимул оптимизировать.
Мой прогноз на 2027-2028? Мы не увидим нового GPT-3 момента (когда модель взрывает индустрию одним махом). Вместо этого будет медленная, мучительная эволюция: на 5% умнее, но на 30% эффективнее. Эра гигантомании подходит к концу. Начинается эра изобретательности. И это, как ни странно, может быть лучшим, что случалось с AI со времен трансформеров. Когда ресурсы бесконечны, можно быть глупым и расточительным. Когда каждый гигабайт HBM и каждый киловатт на счету – начинаешь думать головой.