Парадокс Джевонса в AI 2026: падение цены токенов и дефицит железа

Три пенса за гениальность, но триллионы за электричество

31 марта 2026 года мы наблюдаем экономический абсурд. Стоимость одного токена в GPT-5 Turbo упала до символических $0.00012. Запустить модель дешевле, чем отправить спам-письмо в 2010-х. Одновременно с этим OpenAI тихо закрыл доступ к Sora, сославшись на «экстраординарные вычислительные затраты». Генерация минутного ролика пожирала ресурсы небольшой дата-центра. Цена упала, а дефицит железа стал только острее. Добро пожаловать в парадокс Джевонса эпохи искусственного интеллекта.

Викторианский экономист предсказал кризис GPU

В 1865 году Уильям Джевонс заметил странность: угольные паровые машины стали эффективнее, но потребление угля не упало – оно взлетело. Дешевизна стимулировала новые, немыслимые раньше способы использования. Теперь замени «уголь» на «вычислительные мощности», а «паровую машину» на «трансформер». Снижение цены токена в 50 раз за два года – это не победа, а стартовый выстрел. Каждый стартап, каждый студент, каждый маркетолог получил в руки инструмент, который раньше был роскошью. И начал использовать его для всего. Генерация отчетов, проверка кода, создание мемов, переписывание статей – спрос на инференс рванул в стратосферу. Мы писали об этом механизме еще год назад, но реальность превзошла прогнозы.

Нюанс: дешевеет инференс (использование модели), а не тренировка. Тренировка GPT-5, по слухам, обошлась в $850 миллионов. Это создает дикое расслоение: пользоваться легко, создать свою модель – запредельно дорого. Так рождается олигополия.

Sora как жертва собственного успеха. Или провала?

История с закрытием Sora показательна. Модель была технологическим чудом, но экономическим монстром. В январе 2026 внутренние расчеты OpenAI показали: если бы Sora оставался публичным, к концу года его эксплуатация съела бы половину выделенных на инференс мощностей компании. При этом монетизация видеогенерации оказалась хрупкой. Рынок не готов платить $100 за минутный ролик в 4K, когда конкуренты предлагают хромой, но дешевый аналог. Компания сделала единственно разумную вещь в условиях своего «Красного кода»: отключила самое прожорливое дитя.

💡

Это не первый случай. Ранее Google ограничил доступ к некоторым режимам Imagen 3, а Meta свернула публичные демо моделей генерации 3D-объектов. Тренд ясен: компании перестают выставлять напоказ самые ресурсоемкие игрушки. Магия превращается в товар, но не вся.

Дженсен Хуанг и новая арифметика

На GTC 2026 Дженсен Хуанг, CEO NVIDIA, произнес ключевую фразу: «Стоимость инференса стремится к нулю, а ценность индустрии AI – к бесконечности. Наша задача – не считать токены, а строить инфраструктуру для новой реальности». Это был эвфемизм. Переводя на русский: «Да, наши чипы будут сжигать еще больше мегаватт, и это хорошо». Компания представляет архитектуру Blackwell Ultra, где акцент смещен с raw FLOPS на эффективность памяти и пропускную способность кластеров. Они готовятся не к падению спроса, а к его взрывному росту. И отрицают слухи о $100 миллиардах инвестиций в OpenAI, потому что их бизнес-модель – продавать лопаты всем золотоискателям, а не финансировать одного.

Параметр	2024 (Hopper)	2026 (Blackwell Ultra, прогноз)	Рост, раз
Стоимость инференса (токен GPT-класс)	~$0.002	~$0.00012	↓ в 16.6
Общемировой спрос на инференс (PFLOPS/день)	1.2 ZettaFLOPS	18.5 ZettaFLOPS	↑ в 15.4
Потребление энергии дата-центрами AI (ТВтч/год)	~120	~420 (оценка IEA)	↑ в 3.5

Что ломает математику? Ненасытность

Ожидалось, что более эффективные модели (как LLaMA 4 с ее 128K контекстом) снизят нагрузку. На практике они ее увеличили. Разработчики просто стали подавать в модели более длинные контексты, загружать целые базы знаний и проводить многоэтапный reasoning. Исследователи Epoch AI фиксируют: закон Мура для AI мертв. Прогресс требует экспоненциально больше данных и вычислений. Новый релиз Claude от Anthropic показал, что качество ответов резко растет, если увеличить «размышления» модели (chain-of-thought) в 10 раз. Это в 10 раз дороже. Никто не остановится.

И здесь мы упираемся в физику. Фабрики TSMC не могут печатать чипы быстрее. Строительство дата-центров упирается в электросети и разрешения. Волна падения акций NVIDIA и Oracle в начале 2026 была не паникой, а холодной переоценкой: сможет ли supply угнаться за demand? Ответ рынка: нет. В ближайшие три года.

Так куда бежать инвестору и разработчику?

Если вы ждали, когда AI подешевеет настолько, что можно будет построить бизнес на раздаче гениальности за копейки – вы опоздали. Точка максимальной выгоды сместилась.

Инфраструктура – новая нефть. Не сами модели, а инструменты для их развертывания, оптимизации, энергоснабжения. Битва за inference-чипы только начинается.
Вертикальные решения убивают горизонтальные. Не «еще один ChatGPT- wrapper», а глубокая интеграция AI в узкую отрасль с собственной, вылизанной data pipeline. «Ослы» против «единорогов» – наше новое нормальное.
Эффективность – единственная валюта. Оптимизация промптов, кэширование эмбеддингов, квантование весов. Команда, которая выжмет из одной GPU-H100 в 2 раза больше запросов, победит.

Парадокс Джевонса не решается. Его можно только использовать. Дешевые токены – это не финишная прямая, а только начало марафона, где главным ресурсом станет не интеллект алгоритма, а банальное электричество и кремний. Готовы ли вы платить за мегаватты?

Подписаться на канал

Парадокс Джевонса в AI: почему дешевые токены не остановили голод на железо