MLLM не читают часы: фундаментальный сбой в мультимодальном ИИ | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Новости

Почему мультимодальные модели не могут определить время на часах: разбор фундаментального сбоя

GPT-4o, Gemini 2.0 и Claude 3.5 Sonnet не могут определить время на аналоговых часах. Новое исследование IEEE показывает, почему это не баг, а системная проблем

Самые умные модели в мире не могут прочитать часы

Откройте фото аналоговых часов. Покажите его GPT-4o, Gemini 2.0 или Claude 3.5 Sonnet. Спросите: "Который час?"

В 73% случаев они ошибаются. Не на минуту-другую. А на 2-3 часа. Иногда говорят "половина пятого", когда на циферблате ровно три. Иногда путают часовую и минутную стрелки. Иногда просто генерируют случайное время.

Это не шутка. Исследование IEEE, опубликованное 15 января 2026 года, тестировало 12 современных MLLM на 5000 изображений часов. Лучший результат - 27% точности. Хуже, чем у пятилетнего ребенка.

Почему это важно? Потому что это не про часы

Кажется, мелочь. Кому нужны аналоговые часы в 2026? Но проблема глубже. Если модель не может прочитать часы, она не понимает:

  • Пространственные отношения объектов
  • Относительные углы и направления
  • Иерархическую структуру (циферблат → стрелки → положение)
  • Связь между визуальным паттерном и абстрактным понятием

Это тот же сбой, что мешает ИИ правильно генерировать время на часах. Только теперь мы видим обратную сторону: не генерация, а распознавание.

Каскад ошибок: как ломается процесс

Исследователи из MIT разобрали процесс на этапы. И нашли, где именно всё идет не так.

Шаг 1: Детекция объектов

Модель видит "круглый объект с метками и стрелками". Хорошо. Но уже здесь первая ошибка: некоторые MLLM путают часы с компасом, спидометром, циферблатом термостата.

Шаг 2: Распознавание компонентов

Две стрелки? Три? Иногда секундную стрелку принимают за дефект изображения. Римские цифры (IV, VI, IX) сбивают с толку - модель пытается прочитать их как текст, а не как позиции.

💡
Интересный факт: модели лучше справляются с цифровыми часами (87% точности). Потому что там нет пространственной логики - только распознавание цифр. Это подтверждает гипотезу: проблема именно в геометрическом понимании.

Шаг 3: Измерение углов

Критический этап. Модель должна измерить угол каждой стрелки относительно вертикали. Но системы координат в vision-encoder и language-decoder не совпадают.

Vision-модуль говорит: "часовая стрелка под углом 127 градусов". Language-модуль слышит: "что-то про 127". И пытается сопоставить это с "часами" в текстовом пространстве.

Шаг 4: Перевод в текст

Здесь происходит магия (или её отсутствие). 127 градусов → какой час? Модель не вычисляет. Она ищет ближайший ассоциативный паттерн в обучающих данных. "127" ассоциируется с "около двух часов", потому что 120 градусов = 4 часа, но... стоп, уже запутались?

Архитектурная ловушка: почему это не исправить патчем

OpenAI, Google и Anthropic знают о проблеме. Но исправлять её - всё равно что перестраивать фундамент небоскреба.

Модель (версия на 20.01.2026) Точность определения времени Основная ошибка
GPT-4o (последняя) 27% Путаница часовой/минутной
Gemini 2.0 Ultra 23% Неправильный отсчет углов
Claude 3.5 Sonnet 19% Игнорирование минутной стрелки
Qwen2.5-VL-72B 15% Ошибки с римскими цифрами

Проблема в самой архитектуре трансформеров. Они отлично работают с ассоциациями, но не с геометрическими вычислениями. Модель "знает", что после "два часа" часто следует "два тридцать". Но не понимает, что 30 минут = половина оборота минутной стрелки.

Это тот же изъян, что мешает LLM следовать инструкциям последовательно. Модель понимает отдельные компоненты, но не их системное взаимодействие.

Эксперимент, который всё ставит на место

Исследователи провели жестокий тест. Взяли 100 изображений часов. Для каждого создали три варианта:

  1. Оригинальные часы (скажем, 3:45)
  2. Те же часы, но цифры заменены на буквы (A, B, C...)
  3. Те же часы, но стрелки повернуты на 30 градусов

Результат шокировал. С вариантом 2 (буквы вместо цифр) точность упала до 4%. Модели буквально говорили: "Часы показывают время между C и D".

Вариант 3 (смещенные стрелки) дал 11% точности. Но самое интересное - ошибки были системными. Если оригинал показывал 3:45, а стрелки сместили на 30°, модель часто отвечала "4:15" (правильно для смещенных стрелок) или "3:45" (запомнила оригинал). Никто не сказал "3:45, но стрелки смещены".

Вывод: MLLM не вычисляют время. Они сопоставляют визуальный паттерн с текстовым шаблоном. Если паттерн искажен - сопоставление ломается. Нет внутренней модели часов как механического устройства.

Что это значит для будущего мультимодального ИИ?

Если модели не могут прочитать часы, что они не могут сделать с медицинскими снимками? С чертежами? С графиками данных?

Это подтверждает тезис из нашей предыдущей статьи: мультимодальность - это тупик в текущей парадигме. Добавление vision-модуля к языковой модели не создает истинного понимания. Создает иллюзию понимания.

Инженеры пытаются исправить это тонкой настройкой. Обучают модели на миллионах изображений часов с разметкой. Но это лечение симптомов. Архитектурная проблема остаётся: трансформеры не предназначены для геометрических рассуждений.

Есть ли выход? Да, но он болезненный

Три пути, и все неприятные:

1. Гибридные системы

Добавить к MLLM классический компьютерный vision-пайплайн: детекция круга → определение центра → измерение углов стрелок → вычисление времени по формулам. Но это ломает элегантность end-to-end обучения.

2. Новая архитектура

Создать модели, которые изначально включают модули пространственного мышления. Что-то вроде нейросетевой версии механистической интерпретируемости, но для геометрии.

3. Признать ограничения

Смириться, что ИИ не будет понимать некоторые вещи. Использовать его для того, что он делает хорошо (ассоциации, генерация текста), а для чтения часов... ну, есть OCR.

Пока компании выбирают третий путь. Проще сказать "часы устарели" или "пользователи могут спросить по-другому", чем перестраивать архитектуру, стоящую миллиарды долларов.

Что делать прямо сейчас?

Если ваш проект зависит от точного анализа изображений:

  • Не доверяйте MLLM определение времени, углов, пропорций
  • Используйте специализированные CV-библиотеки для геометрических задач
  • Тестируйте на edge-кейсах (часы без цифр, нестандартные циферблаты, частично закрытые стрелки)
  • Помните: если модель ошибается с часами, она ошибется с любым объектом, требующим пространственного анализа

И главное - не верьте маркетингу. Когда следующая модель заявит о "прорыве в мультимодальном понимании", спросите её: "Который час на этих часах?" Ответ покажет реальный прогресс. Или его отсутствие.

Прогноз на 2026-2027: мы увидим волну исследований по "геометрическому пониманию" в ИИ. Но настоящий прорыв случится только когда кто-то осмелится отказаться от чистых трансформеров. Возможно, это сделает новая компания. Или открытая модель, вроде следующей Llama, которая наконец научится читать часы.

А пока - проверьте сами. Откройте фото часов. Спросите у своей любимой MLLM. И посмейтесь. Или погрустите. В зависимости от того, насколько вы верили в разумность искусственного интеллекта.