Три пенса за гениальность, но триллионы за электричество
31 марта 2026 года мы наблюдаем экономический абсурд. Стоимость одного токена в GPT-5 Turbo упала до символических $0.00012. Запустить модель дешевле, чем отправить спам-письмо в 2010-х. Одновременно с этим OpenAI тихо закрыл доступ к Sora, сославшись на «экстраординарные вычислительные затраты». Генерация минутного ролика пожирала ресурсы небольшой дата-центра. Цена упала, а дефицит железа стал только острее. Добро пожаловать в парадокс Джевонса эпохи искусственного интеллекта.
Викторианский экономист предсказал кризис GPU
В 1865 году Уильям Джевонс заметил странность: угольные паровые машины стали эффективнее, но потребление угля не упало – оно взлетело. Дешевизна стимулировала новые, немыслимые раньше способы использования. Теперь замени «уголь» на «вычислительные мощности», а «паровую машину» на «трансформер». Снижение цены токена в 50 раз за два года – это не победа, а стартовый выстрел. Каждый стартап, каждый студент, каждый маркетолог получил в руки инструмент, который раньше был роскошью. И начал использовать его для всего. Генерация отчетов, проверка кода, создание мемов, переписывание статей – спрос на инференс рванул в стратосферу. Мы писали об этом механизме еще год назад, но реальность превзошла прогнозы.
Нюанс: дешевеет инференс (использование модели), а не тренировка. Тренировка GPT-5, по слухам, обошлась в $850 миллионов. Это создает дикое расслоение: пользоваться легко, создать свою модель – запредельно дорого. Так рождается олигополия.
Sora как жертва собственного успеха. Или провала?
История с закрытием Sora показательна. Модель была технологическим чудом, но экономическим монстром. В январе 2026 внутренние расчеты OpenAI показали: если бы Sora оставался публичным, к концу года его эксплуатация съела бы половину выделенных на инференс мощностей компании. При этом монетизация видеогенерации оказалась хрупкой. Рынок не готов платить $100 за минутный ролик в 4K, когда конкуренты предлагают хромой, но дешевый аналог. Компания сделала единственно разумную вещь в условиях своего «Красного кода»: отключила самое прожорливое дитя.
Дженсен Хуанг и новая арифметика
На GTC 2026 Дженсен Хуанг, CEO NVIDIA, произнес ключевую фразу: «Стоимость инференса стремится к нулю, а ценность индустрии AI – к бесконечности. Наша задача – не считать токены, а строить инфраструктуру для новой реальности». Это был эвфемизм. Переводя на русский: «Да, наши чипы будут сжигать еще больше мегаватт, и это хорошо». Компания представляет архитектуру Blackwell Ultra, где акцент смещен с raw FLOPS на эффективность памяти и пропускную способность кластеров. Они готовятся не к падению спроса, а к его взрывному росту. И отрицают слухи о $100 миллиардах инвестиций в OpenAI, потому что их бизнес-модель – продавать лопаты всем золотоискателям, а не финансировать одного.
| Параметр | 2024 (Hopper) | 2026 (Blackwell Ultra, прогноз) | Рост, раз |
|---|---|---|---|
| Стоимость инференса (токен GPT-класс) | ~$0.002 | ~$0.00012 | ↓ в 16.6 |
| Общемировой спрос на инференс (PFLOPS/день) | 1.2 ZettaFLOPS | 18.5 ZettaFLOPS | ↑ в 15.4 |
| Потребление энергии дата-центрами AI (ТВтч/год) | ~120 | ~420 (оценка IEA) | ↑ в 3.5 |
Что ломает математику? Ненасытность
Ожидалось, что более эффективные модели (как LLaMA 4 с ее 128K контекстом) снизят нагрузку. На практике они ее увеличили. Разработчики просто стали подавать в модели более длинные контексты, загружать целые базы знаний и проводить многоэтапный reasoning. Исследователи Epoch AI фиксируют: закон Мура для AI мертв. Прогресс требует экспоненциально больше данных и вычислений. Новый релиз Claude от Anthropic показал, что качество ответов резко растет, если увеличить «размышления» модели (chain-of-thought) в 10 раз. Это в 10 раз дороже. Никто не остановится.
И здесь мы упираемся в физику. Фабрики TSMC не могут печатать чипы быстрее. Строительство дата-центров упирается в электросети и разрешения. Волна падения акций NVIDIA и Oracle в начале 2026 была не паникой, а холодной переоценкой: сможет ли supply угнаться за demand? Ответ рынка: нет. В ближайшие три года.
Так куда бежать инвестору и разработчику?
Если вы ждали, когда AI подешевеет настолько, что можно будет построить бизнес на раздаче гениальности за копейки – вы опоздали. Точка максимальной выгоды сместилась.
- Инфраструктура – новая нефть. Не сами модели, а инструменты для их развертывания, оптимизации, энергоснабжения. Битва за inference-чипы только начинается.
- Вертикальные решения убивают горизонтальные. Не «еще один ChatGPT- wrapper», а глубокая интеграция AI в узкую отрасль с собственной, вылизанной data pipeline. «Ослы» против «единорогов» – наше новое нормальное.
- Эффективность – единственная валюта. Оптимизация промптов, кэширование эмбеддингов, квантование весов. Команда, которая выжмет из одной GPU-H100 в 2 раза больше запросов, победит.
Парадокс Джевонса не решается. Его можно только использовать. Дешевые токены – это не финишная прямая, а только начало марафона, где главным ресурсом станет не интеллект алгоритма, а банальное электричество и кремний. Готовы ли вы платить за мегаватты?