Какой язык жестов распознает система Microsoft и RIT?

Система обучается на американском языке жестов (American Sign Language, ASL), но подход может быть адаптирован для других жестовых языков.

Какая точность у системы распознавания жестов?

На отдельных жестах точность достигает 99%, на фразах из 2-3 жестов — 94%, в диалоговой речи — 81%.

Нужно ли специальное оборудование для работы системы?

В отличие от ранних решений с «умными перчатками», система Microsoft и RIT использует обычные камеры с датчиками глубины, что делает ее потенциально доступной для смартфонов и ноутбуков.

Когда технология станет доступна для обычных пользователей?

Пока это исследовательский прототип. До коммерческого продукта может пройти несколько лет, но тренд на инклюзивные технологии ускоряет разработку.

AI для языка жестов: как Microsoft и RIT создают ассистентов для глухих

Камеры смотрят на руки, а не на лица

Пока все обсуждают, какой голосовой ассистент лучше имитирует человеческую речь, Microsoft и Рочестерский технологический институт (RIT) решают другую задачу. Они учат компьютеры понимать, когда люди вообще не говорят. Ни слова.

Исследователи создают систему, которая распознает американский язык жестов (ASL) с точностью 99%. Это не очередное улучшение Siri или Alexa. Это попытка закрыть цифровую пропасть, которая существует для 70 миллионов глухих и слабослышащих людей по всему миру.

ASL — полноценный язык со своей грамматикой, синтаксисом и культурой. Это не просто «жестовый английский». В нем есть нюансы, которые обычные системы компьютерного зрения не замечают.

Почему существующие решения не работают?

Вы когда-нибудь пробовали пользоваться голосовым помощником, если вы глухой? Или видели, как кто-то пытается объяснить что-то по телефону с помощью переводчика жестового языка? Это выглядит так, будто вы пытаетесь починить квантовый компьютер молотком.

Большинство AI-ассистентов заточены под голос. Они ждут, когда вы скажете «Окей, Google» или «Привет, Siri». Для глухого человека это все равно что требовать от слепого прочитать QR-код.

💡

Напомним, что подобные проблемы с доступностью уже решали в проекте Gemma Vision — офлайн-ассистенте для незрячих. Там тоже пришлось отказаться от стандартных подходов.

Как работает система Microsoft-RIT

Исследователи взяли не обычные камеры, а датчики глубины. Они фиксируют не только движение рук, но и их положение в пространстве. Пальцы, ладони, угол наклона кисти — все это превращается в трехмерную модель.

Затем нейросеть анализирует эту модель. Она ищет паттерны, которые соответствуют жестам ASL. Но вот сложность: один и тот же жест может означать разные вещи в зависимости от контекста. Как слово «коса» в русском языке.

Что система распознает	Сложность для AI	Точность текущей версии
Базовые жесты (алфавит)	Низкая	99%
Фразы из 2-3 жестов	Средняя	94%
Диалоговая речь	Высокая	81%

«Умные перчатки» — это тупик

Раньше пытались делать устройства с датчиками, которые надеваются на руки. Выглядит круто в научно-фантастических фильмах. В реальности — неудобно, дорого и ненадежно.

Представьте: вам нужно срочно что-то объяснить, а вы сначала должны надеть специальные перчатки, подключить их к телефону, проверить заряд батареи... К тому времени ситуация уже изменится.

Подход Microsoft и RIT другой. Они используют обычные камеры (ну, почти обычные). Система должна работать на смартфоне или ноутбуке. Без дополнительного оборудования. Как голосовой ассистент на одной видеокарте, только для жестов.

Главная проблема — не техническая, а культурная. Носители ASL часто отказываются от технологий распознавания жестов, потому что те «не понимают» их язык. Системы путают диалекты, не учитывают региональные особенности. Та же история, что и с языковыми моделями, которые судят по диалекту.

Что будет, когда это заработает?

Представьте сценарии, которые сейчас кажутся фантастикой:

Глухой человек заходит в кафе, показывает жестами заказ камере телефона, а тот озвучивает его бариста
Видеозвонок, где система автоматически переводит жестовый язык в речь и обратно в реальном времени
Образовательные приложения, которые проверяют, правильно ли студент воспроизводит жесты
Ассистенты в общественных местах (аэропортах, больницах), которые понимают жесты

Но самый интересный вариант — интеграция с другими AI-системами. Например, с теми же VLA-моделями для управления роботами. Робот-помощник, который понимает жесты? Звучит как начало хорошего научно-фантастического романа.

Почему это сложнее, чем кажется

Точность 99% на отдельных жестах — это только начало. Настоящий вызов начинается, когда жесты складываются в предложения. В ASL есть:

Выражение лица (да, это часть грамматики)
Движение тела и наклон головы
Темп и плавность жестов
Пространственные указатели (жесты, указывающие на невидимые объекты в пространстве)

Система Microsoft-RIT пока учится с первыми тремя пунктами. Четвертый — это следующий уровень сложности. Как объяснить AI, что жест «там» может означать совершенно разные места в зависимости от контекста разговора?

Кому это нужно кроме глухих?

Вот что интересно: технология распознавания жестов пригодится не только людям с нарушениями слуха. Представьте:

Рабочие на шумном производстве, которые не могут кричать через весь цех
Водолазы или космонавты в скафандрах
Люди с временной потерей голоса после операций
Ситуации, где нужно общаться тихо (библиотеки, ночные смены в больницах)

Это тот редкий случай, когда технология для людей с ограниченными возможностями становится полезной для всех. Как пандусы, которые изначально делали для инвалидных колясок, а теперь ими пользуются мамы с колясками, велосипедисты и курьеры.

💡

Интересно, что похожий подход к «универсальному дизайну» использовали создатели офлайн-ассистента для слепых. Они тоже начинали с узкой проблемы, а получили решение, полезное в десятках других ситуаций.

Когда ждать реальных продуктов?

Исследование Microsoft и RIT — пока только прототип. До коммерческого продукта еще далеко. Но тренд очевиден: крупные tech-компании наконец-то обратили внимание на инклюзивные технологии.

Apple уже добавляет в iOS функции для людей с ограниченными возможностями. Google работает над улучшением доступности Android. Но Microsoft здесь пошел дальше — они не просто адаптируют существующие технологии, а создают принципиально новые.

Проблема в том, что такие проекты редко получают столько же внимания и финансирования, сколько очередной ChatGPT или Midjourney. Хотя их социальный эффект может быть значительно выше.

Осторожно с хайпом. Как и в случае с ложными прорывами ИИ в соцсетях, здесь тоже легко переоценить прогресс. 99% точности на лабораторных данных — это не 99% в реальном кафе с плохим освещением и людьми на заднем плане.

Что это значит для разработчиков?

Если вы создаете приложения или сервисы, подумайте: а понимают ли их глухие люди? Вот простой чек-лист:

Есть ли субтитры ко всем видео?
Можно ли пользоваться интерфейсом без звуковых подсказок?
Поддерживает ли ваш чат-бот текстовый режим (а не только голосовой)?
Есть ли альтернатива голосовым командам?

Технологии Microsoft и RIT пока недоступны для массового использования. Но это не повод откладывать доступность на потом. Начните с малого. Хотя бы с субтитров.

А когда системы распознавания жестов действительно появятся в API Microsoft или как open-source проект — вы уже будете готовы их интегрировать. В отличие от конкурентов, которые только начнут думать об этом.

Ирония в том, что мы тратим миллиарды на AI, который пишет стихи и рисует котиков, но до сих пор не можем сделать так, чтобы глухой человек мог заказать пиццу без помощи переводчика. Может, пора пересмотреть приоритеты?

Microsoft и RIT хотя бы пытаются. Их система еще сырая, еще далека от совершенства. Но они движутся в правильном направлении — туда, где технологии решают реальные проблемы реальных людей. А не просто развлекают тех, у кого и так все есть.

Следующий шаг? Наверное, объединить их технологию с чем-то вроде локального синтеза речи. Чтобы весь цикл «жест → текст → речь» работал офлайн, без облаков и задержек. Как в том самом офлайн-ассистенте на Gemma 3n.

Тогда мы получим не просто еще одну AI-игрушку. А инструмент, который действительно меняет чью-то жизнь к лучшему. И ради этого стоит потерпеть неидеальную точность в 81% на первых порах.

Язык жестов против нейросетей: почему Microsoft и RIT учат AI понимать руки, а не слова