Исследование Sber AI Lab: перенос методов CV в прогнозирование | AAAI 2026

Смотрите, кто пришел: CV-методы в мире временных рядов

До 2026 года компьютерное зрение и прогнозирование событий жили в параллельных вселенных. Первое искало котиков на фотках, второе — пыталось угадать, рухнет ли рынок через полгода. Но на AAAI 2026 Sber AI Lab заявила: архитектуры, которые находят объекты на изображениях, отлично работают с временными последовательностями. И это не просто очередной бенчмарк — это смена парадигмы.

Идея витала в воздухе с тех пор, как трансформеры начали захватывать NLP и CV. Но до сих пор никто не решался перетащить detect-and-approach прямо на ленту времени. Команда Sber AI Lab взяла DETR (и его наследников вроде DINO) и адаптировала их под задачу EventForecasting. Результат? Модель не просто предсказывает, а локализует события во времени — примерно так же, как bounding box находит объект в кадре. Звучит логично, но есть нюанс: временные ряды — не картинка, там нет пространственных паттернов.

💡

Если вы еще не в курсе, куда катится ML в 2026 году, советую глянуть Плато возможностей AI — там разбирают, почему бесконечное масштабирование себя исчерпало.

Как заставить детектор объектов думать о будущем

В основе работы — энкодер-декодер на базе трансформера, но с твиком. Энкодер сжимает исторические данные в набор токенов (как patch embedding в ViT), а декодер генерирует слоты событий. Каждый слот — это потенциальное будущее событие с меткой времени, типом и вероятностью. Архитектура обучается end-to-end без ручного выделения окон, в отличие от классических LSTM. Ключевое нововведение — механизм set-based loss, заимствованный из DETR. Вместо того чтобы штрафовать модель за каждый пропущенный час, loss сравнивает предсказанный набор событий с реальным, используя венгерский алгоритм. Это позволяет модели научиться фокусироваться на важных событиях, игнорируя шум.

Но, как всегда, дьявол в деталях. В CV bounding box — это прямоугольник с координатами. Во временном ряду событие — точка во времени с длительностью. Пришлось изобретать temporal queries — что-то вроде якорей, которые скользят по оси времени. Без них декодер начинал галлюцинировать события там, где их нет. Команда Sber AI Lab утверждает, что это их главное ноу-хау.

⚠️ Не советую слепо копировать этот подход, если ваши данные — хаотичные тики с биржи. В экономических рядах слишком много ложных паттернов, и детектор начнет ловить шум. Проверяйте на синтетике сначала.

Бенчмарки и немного скепсиса

На AAAI 2026 авторы отчитались, что их метод (назовем его Event DETR) превзошел State-of-the-Art на датасетах Traffic (прогноз аварий), ECL (энергопотребление) и MIMIC (медицинские обострения) по метрике F1 для редких событий. Выигрыш составил 12-15% в Recall при той же Precision. Впечатляет. Но если покопаться:

Большая часть улучшений приходится на события с длительностью более 24 часов. Мелкие, быстрые ивенты модель пропускает так же часто, как старые градиентные бустинги.
Для обучения нужно как минимум 5000 исторических точек — на коротких рядах модель переобучается и тупит.
Авторы лукавят: в baseline использовали vanilla Transformer с оконными подходами, а не современные архитектуры вроде TimesNet или PatchTST. Честное сравнение могло бы дать другую картину.

Тем не менее, это первая работа, которая доказала, что set-based детекция применима к временным рядам. Как говорится, лучше сделать и жалеть, чем не сделать и жалеть. Кстати, о смелых подходах: в статье Flapping Airplanes vs Scaling отлично показано, почему исследовательский подход иногда бьет грубую силу.

Что это значит для AI-индустрии? Или опять хайп?

Если кратко: мы получили универсальный паттерн. Теперь не нужно для каждой задачи городить отдельные модели: можно взять натренированный на картинках бэкбон, докинуть слой временных запросов — и прогнозируй. Это сильно сокращает порог входа для прикладных ML-команд. Но есть и обратная сторона: модели становятся черными ящиками двойной сложности — внутри и CV, и временная ось. Интерпретировать такое — сущий ад. Для бизнеса, где требуется accountability, это пока неприемлемо. Собственно, на конференции AiConf 2026 эту проблему обсуждали отдельно: модель может круто работать, но если она не объяснит, почему предсказала крах поставок через два месяца — ей не поверят.

Кстати, о поставках: метод Sber AI Lab уже тестируют в логистике — для прогнозирования задержек и поиска root cause сбоев. Но это скорее research, до продакшена далеко. Пока что рекомендую присмотреться к зрелым подходам из статьи Как использовать AI для анализа сбоев в цепочке поставок — там более прикладные решения.

Личное мнение: ждать или внедрять?

Если вы CTO в стартапе, который занимается прогнозами, — пробуйте, но на песочнице. В продакшн пока рано: модель требует много данных, чувствительна к гиперпараметрам, а обучение на обычных GPU затягивается на сутки. Для enterprise, где есть ресурсы и огромные архивы событий, — да, это потенциальный killer feature. Но не забывайте про explainability. В 2026 году, как пишут в фреймворке выживания CDAO, AI перестал быть игрушкой. Регуляторы требуют прозрачности.

Честно? Я бы поставил на то, что через год Event-DETR дорастет до продакшен-решений. А пока — следим за репозиторием Sber AI Lab. И тщательно читаем Work in Progress на том же AAAI. Кстати, недавно вышло сравнительное исследование 21 алгоритма — полигармонический каскад обошел нейросети на синтетике. Может, и здесь стоит поискать нетривиальные решения?

Подписаться на канал

Как детекция объектов перешла на темную сторону: Sber AI Lab взломала прогнозирование на AAAI 2026

Смотрите, кто пришел: CV-методы в мире временных рядов

Как заставить детектор объектов думать о будущем

Бенчмарки и немного скепсиса

Что это значит для AI-индустрии? Или опять хайп?

Личное мнение: ждать или внедрять?

Подписывайтесь на наш канал!