AI-инженерия 2026: тренды с AI Engineer World's Fair

Модели кончились. Началось железо

В июле 2026 года Сан-Франциско уже четвёртый год подряд превращается в эпицентр AI-инженерии. AI Engineer World's Fair собрал 560 сессий, и если вытащить из них нерв, то чётко проступает одно: эпоха поклонения новым моделям закончилась. GPT-5, Claude 4 Omni, Llama 4 — да, они есть, они работают, но на конференции о них говорили вполголоса. Главные звёзды — это харнесс, эвалы и песочницы. Три кита, на которых теперь держится продакшн.

Доклады про «ещё один LoRA-финтюн» сменились детальными разборами пайплайнов наблюдаемости. Если год назад все истерически обсуждали размер контекстного окна (гонка параметров действительно схлопнулась), то теперь инженеры ссорятся из-за latency и безопасности. Смещение фокуса с модели на инфраструктуру — не просто тренд, а выживание.

Цифры: 78% сессий AI Engineer World's Fair 2026 касались инструментов оценки, отладки или изоляции агентов. Только 12% — обучения новых моделей.

Харнесс: не frameworks, а обвязка

Понятие «харнесс» (harness) пришло из тестирования сложных систем, но теперь это мейнстрим AI-продукта. Под харнессом понимают всю обвязку вокруг LLM: промпт-менеджмент, маршрутизацию, кэширование, ретраи, гардрейлы. В 2026 году харнесс — это не просто LangChain или Haystack (хотя они всё ещё в топе), а целый стек: DSPy для оптимизации промптов, Weights & Biases для логирования, Arize Phoenix для дрейфа.

Главный инсайт конференции: харнесс должен быть stateless и тестируемым. Если ваша обёртка для GPT-5 не покрыта юнит-тестами — вы вывозите не продукт, а баг. Один из самых ярких докладов — от инженера Replit, который показал, как их AI-ассистент кода тестирует каждый харнесс перед деплоем. Без этого они бы тонули в хаотичных ответах модели.

Любопытно, что харнессы эволюционируют из монолитных библиотек в композитные блоки. Появился стандарт OpenHarness (инициатива от LangChain и MLflow), который позволяет декларативно описывать pipeline. В 2027 году, вероятно, мы увидим конкуренцию между OpenHarness и закрытыми решениями от Amazon (Bedrock Orchestrator) и Google (Vertex AI Agent Framework).

Эвалы: почему точность больше не метрика

«Stop measuring accuracy, start measuring correctness» — фраза из доклада CEO Arize, которая стала мемом конференции. Эвалы (evals) в 2026 году — это не про quality-score на бенчмарках, а про то, как поведение модели соотносится с ожиданием пользователя. На AI Engineer World's Fair представили новый инструмент — OpenEvals (форк от EleutherAI), который позволяет писать тест-кейсы для LLM на естественном языке: «Если пользователь просит удалить фото, агент не должен выходить за границы альбома».

Сдвиг от метрик к эвалам — это следствие взросления. Когда модель — чёрный ящик, единственный способ её проконтролировать — написать сотни тестов. Агентные системы особенно требовательны: даже самая умная модель может провалить простую последовательность действий. Доклады по эвалам собирали полные залы — инженеры хотят не просто запустить агента, а понять, почему он облажался.

Кстати, это резонирует с выводами AIConf 2026: агенты вышли из песочниц, и эвалы стали обязательной страховкой. Если у вас нет набора эвалов для каждого сценария — вы играете в русскую рулетку с пользователями.

Песочницы: новый азот для агентов

Песочницы (sandboxes) — третий столп, который буквально взорвался на конференции. После громких инцидентов с автономными агентами (помните историю, когда GPT-5 Agent заказал тысячу пицц для офиса?), изоляция стала не просто best practice, а требованием регуляторов. EU AI Act, вступивший в силу в начале 2026 года, прямо требует «механизмов изоляции для высокорисковых систем» (подробнее о регуляторном давлении).

На конференции показали несколько open-source решений: SandboxAI от компании Modal, бывшую Modal-for-LLM, и Fission Labs Sandbox. Идея проста: агент работает в виртуальной файловой системе, с ограниченным сетевым доступом и моками внешних API. Все side-эффекты логируются, и только подтверждённые действия применяются к реальному миру.

Удивительно, но самые горячие баталии разгорелись вокруг того, должна ли песочница быть изолированной на уровне контейнера или достаточно программного ограничения. Ответ — зависит от риска. Для чат-бота достаточно программной изоляции, для финансового агента — только контейнеры с egress-фильтрацией. Практически все стартапы, которые строили агентов без песочниц, либо закрылись, либо срочно дорабатывают.

Трейсинг — глаза для агента

Сквозная тема конференции — трейсинг (tracing). Без него любой харнесс и песочница слепы. Потому что когда агент совершает 50 вызовов LLM, вызывает три API и работает 15 минут, понять, где ошибка, можно только через полный стек вызовов. LangSmith и Phoenix захватили рынок, но появился новичок — OpenTelemetry for LLM (спецификация, которая уже включена в OpenTelemetry v1.30).

Трейсинг теперь обязателен для любого продакшена. Доклады демонстрировали, как с помощью трейсинга обнаруживают дрейф промпта, неэффективные цепочки вызовов и даже аномальное поведение модели, которое могло бы привести к утечке данных. Один из инженеров из Microsoft показал дашборд, на котором видно, что 30% вызовов к LLM в их агентной системе — «лишние», результат плохого харнесса. Простой трейсинг сэкономил компании $200k в месяц.

Важно: трейсинг не должен ломать конфиденциальность. Многие компании до сих пор логят сырые промпты — это нарушает GDPR и EU AI Act. На конференции предлагали решения на основе дифференциальной приватности.

Кадры решают не всё, но инфраструктуру строят

Невозможно было не заметить: число вакансий на стендах конференции выросло вдвое по сравнению с 2025 годом. Ищут не ML-исследователей, а AI-инженеров — тех, кто умеет проектировать харнессы, писать эвалы и собирать песочницы. Появились даже новые роли: AI Accelerated Engineer и AI Governance Engineer. Первый — ускоряет пайплайны, второй — следит за тем, чтобы харнесс и песочницы соответствовали политикам компании.

Кризис кадров (мы писали о нём раньше) теперь не абстракция. AI-инженер 2026 года должен уметь не столько обучать сетки, сколько строить вокруг них надёжные рельсы. И это накладывает отпечаток на образование: университеты перекраивают программы, а хакатоны теперь меряют не accuracy, а качество трейсинга и покрытие эвалами.

Что дальше: инфраструктура как конкурентное преимущество

К концу конференции осталось ощущение: индустрия переросла детские болезни. Если 2023–2024 были годами «вау, модель умеет писать стихи», то 2026 — год, когда модель может писать код, но запускать его в пайплайн без харнесса — преступление. Победит не тот, у кого самая большая модель, а тот, кто построил самую надёжную песочницу и написал самые точные эвалы.

Не советую игнорировать этот тренд. Если ваша команда всё ещё думает, что можно скормить API модельке и получить продакшен — вы опоздали. В 2026 году sell-side AI уже не про магию, а про инженерию. Харнесс, эвалы, песочницы — триединый двигатель, и только на нём можно безопасно доехать до пользователя.

Прогноз: AI Engineer World's Fair 2027 будет на 80% состоять из секций по архитектуре харнессов и безопасности песочниц. Модели станут ещё незаметнее — они будут просто API-коллом, а всё остальное — работа инженера. И это, чёрт возьми, настоящий прогресс.

Подписаться на канал

AI-инженерия 2026: ключевые тренды с конференции AI Engineer World's Fair — харнесс, эвалы и песочницы