AI для языка жестов: как Microsoft и RIT создают ассистентов для глухих | AiManual
AiManual Logo Ai / Manual.
11 Янв 2026 Новости

Язык жестов против нейросетей: почему Microsoft и RIT учат AI понимать руки, а не слова

Новое исследование Microsoft и RIT: AI распознает американский язык жестов с точностью 99%. Почему это важнее ChatGPT для глухих людей?

Камеры смотрят на руки, а не на лица

Пока все обсуждают, какой голосовой ассистент лучше имитирует человеческую речь, Microsoft и Рочестерский технологический институт (RIT) решают другую задачу. Они учат компьютеры понимать, когда люди вообще не говорят. Ни слова.

Исследователи создают систему, которая распознает американский язык жестов (ASL) с точностью 99%. Это не очередное улучшение Siri или Alexa. Это попытка закрыть цифровую пропасть, которая существует для 70 миллионов глухих и слабослышащих людей по всему миру.

ASL — полноценный язык со своей грамматикой, синтаксисом и культурой. Это не просто «жестовый английский». В нем есть нюансы, которые обычные системы компьютерного зрения не замечают.

Почему существующие решения не работают?

Вы когда-нибудь пробовали пользоваться голосовым помощником, если вы глухой? Или видели, как кто-то пытается объяснить что-то по телефону с помощью переводчика жестового языка? Это выглядит так, будто вы пытаетесь починить квантовый компьютер молотком.

Большинство AI-ассистентов заточены под голос. Они ждут, когда вы скажете «Окей, Google» или «Привет, Siri». Для глухого человека это все равно что требовать от слепого прочитать QR-код.

💡
Напомним, что подобные проблемы с доступностью уже решали в проекте Gemma Vision — офлайн-ассистенте для незрячих. Там тоже пришлось отказаться от стандартных подходов.

Как работает система Microsoft-RIT

Исследователи взяли не обычные камеры, а датчики глубины. Они фиксируют не только движение рук, но и их положение в пространстве. Пальцы, ладони, угол наклона кисти — все это превращается в трехмерную модель.

Затем нейросеть анализирует эту модель. Она ищет паттерны, которые соответствуют жестам ASL. Но вот сложность: один и тот же жест может означать разные вещи в зависимости от контекста. Как слово «коса» в русском языке.

Что система распознает Сложность для AI Точность текущей версии
Базовые жесты (алфавит) Низкая 99%
Фразы из 2-3 жестов Средняя 94%
Диалоговая речь Высокая 81%

«Умные перчатки» — это тупик

Раньше пытались делать устройства с датчиками, которые надеваются на руки. Выглядит круто в научно-фантастических фильмах. В реальности — неудобно, дорого и ненадежно.

Представьте: вам нужно срочно что-то объяснить, а вы сначала должны надеть специальные перчатки, подключить их к телефону, проверить заряд батареи... К тому времени ситуация уже изменится.

Подход Microsoft и RIT другой. Они используют обычные камеры (ну, почти обычные). Система должна работать на смартфоне или ноутбуке. Без дополнительного оборудования. Как голосовой ассистент на одной видеокарте, только для жестов.

Главная проблема — не техническая, а культурная. Носители ASL часто отказываются от технологий распознавания жестов, потому что те «не понимают» их язык. Системы путают диалекты, не учитывают региональные особенности. Та же история, что и с языковыми моделями, которые судят по диалекту.

Что будет, когда это заработает?

Представьте сценарии, которые сейчас кажутся фантастикой:

  • Глухой человек заходит в кафе, показывает жестами заказ камере телефона, а тот озвучивает его бариста
  • Видеозвонок, где система автоматически переводит жестовый язык в речь и обратно в реальном времени
  • Образовательные приложения, которые проверяют, правильно ли студент воспроизводит жесты
  • Ассистенты в общественных местах (аэропортах, больницах), которые понимают жесты

Но самый интересный вариант — интеграция с другими AI-системами. Например, с теми же VLA-моделями для управления роботами. Робот-помощник, который понимает жесты? Звучит как начало хорошего научно-фантастического романа.

Почему это сложнее, чем кажется

Точность 99% на отдельных жестах — это только начало. Настоящий вызов начинается, когда жесты складываются в предложения. В ASL есть:

  1. Выражение лица (да, это часть грамматики)
  2. Движение тела и наклон головы
  3. Темп и плавность жестов
  4. Пространственные указатели (жесты, указывающие на невидимые объекты в пространстве)

Система Microsoft-RIT пока учится с первыми тремя пунктами. Четвертый — это следующий уровень сложности. Как объяснить AI, что жест «там» может означать совершенно разные места в зависимости от контекста разговора?

Кому это нужно кроме глухих?

Вот что интересно: технология распознавания жестов пригодится не только людям с нарушениями слуха. Представьте:

  • Рабочие на шумном производстве, которые не могут кричать через весь цех
  • Водолазы или космонавты в скафандрах
  • Люди с временной потерей голоса после операций
  • Ситуации, где нужно общаться тихо (библиотеки, ночные смены в больницах)

Это тот редкий случай, когда технология для людей с ограниченными возможностями становится полезной для всех. Как пандусы, которые изначально делали для инвалидных колясок, а теперь ими пользуются мамы с колясками, велосипедисты и курьеры.

💡
Интересно, что похожий подход к «универсальному дизайну» использовали создатели офлайн-ассистента для слепых. Они тоже начинали с узкой проблемы, а получили решение, полезное в десятках других ситуаций.

Когда ждать реальных продуктов?

Исследование Microsoft и RIT — пока только прототип. До коммерческого продукта еще далеко. Но тренд очевиден: крупные tech-компании наконец-то обратили внимание на инклюзивные технологии.

Apple уже добавляет в iOS функции для людей с ограниченными возможностями. Google работает над улучшением доступности Android. Но Microsoft здесь пошел дальше — они не просто адаптируют существующие технологии, а создают принципиально новые.

Проблема в том, что такие проекты редко получают столько же внимания и финансирования, сколько очередной ChatGPT или Midjourney. Хотя их социальный эффект может быть значительно выше.

Осторожно с хайпом. Как и в случае с ложными прорывами ИИ в соцсетях, здесь тоже легко переоценить прогресс. 99% точности на лабораторных данных — это не 99% в реальном кафе с плохим освещением и людьми на заднем плане.

Что это значит для разработчиков?

Если вы создаете приложения или сервисы, подумайте: а понимают ли их глухие люди? Вот простой чек-лист:

  • Есть ли субтитры ко всем видео?
  • Можно ли пользоваться интерфейсом без звуковых подсказок?
  • Поддерживает ли ваш чат-бот текстовый режим (а не только голосовой)?
  • Есть ли альтернатива голосовым командам?

Технологии Microsoft и RIT пока недоступны для массового использования. Но это не повод откладывать доступность на потом. Начните с малого. Хотя бы с субтитров.

А когда системы распознавания жестов действительно появятся в API Microsoft или как open-source проект — вы уже будете готовы их интегрировать. В отличие от конкурентов, которые только начнут думать об этом.

Ирония в том, что мы тратим миллиарды на AI, который пишет стихи и рисует котиков, но до сих пор не можем сделать так, чтобы глухой человек мог заказать пиццу без помощи переводчика. Может, пора пересмотреть приоритеты?

Microsoft и RIT хотя бы пытаются. Их система еще сырая, еще далека от совершенства. Но они движутся в правильном направлении — туда, где технологии решают реальные проблемы реальных людей. А не просто развлекают тех, у кого и так все есть.

Следующий шаг? Наверное, объединить их технологию с чем-то вроде локального синтеза речи. Чтобы весь цикл «жест → текст → речь» работал офлайн, без облаков и задержек. Как в том самом офлайн-ассистенте на Gemma 3n.

Тогда мы получим не просто еще одну AI-игрушку. А инструмент, который действительно меняет чью-то жизнь к лучшему. И ради этого стоит потерпеть неидеальную точность в 81% на первых порах.