Машинный перевод языков жестов стал возможен, хотя и ограниченным образом, с 1977 года, когда в рамках исследовательского проекта английские буквы были успешно сопоставлены со знаками ручного алфавита американского жестового языка, которые были смоделированы на роботизированной руке. С помощью этих технологий языки жестов переводятся на письменный или разговорный язык и наоборот без привлечения человека-переводчика. Языки жестов фонологически отличаются от разговорных языков, что создает препятствия для разработчиков. Разработчики используют компьютерное зрение и машинное обучение для распознавания конкретных фонологических параметров и эпентез[1], характерных для языков жестов, а распознавание речи и обработка естественного языка позволяют слышащим и глухим людям общаться между собой.
Перевод на язык жестов так же ограничен, как и другие виды перевода. Ни те, ни другие не дают 100 % точного результата. На самом деле, технологии перевода на язык жестов отстают от других. Развивать эти технологии весьма непросто, поскольку они задействуют сразу несколько каналов связи. Если обычная устная речь использует исключительно голос, то при переводе языка жестов необходимо следить за положением рук, головы, плеч, туловища и мышц лица. Эта многоканальность затрудняет перевод языка жестов. Еще одной проблемой для машинного перевода языков жестов является тот факт, что для них не существует единого формата. Есть системы обозначений, но ни одна система письма не была принята международным сообществом людей с нарушением слуха в качестве «письменной формы» языка жестов. Языки жестов записываются в различных форматах. Не существует корпусов текстов, которые достаточно большие по объему, чтобы осуществить, например, статистический машинный перевод.
История
История автоматического перевода на язык жестов началась с разработки приборов, таких как антропоморфные модели руки для исполнения дактильных жестов. В 1977 году в рамках проекта RALPH (сокращение от «Robotic Alphabet») по созданию такой модели была разработана роботизированная рука, которая может переводить алфавит в дактильную азбуку[2]. Позже появились перчатки с датчиками движения и были запущены такие проекты, как CyberGlove и VPL Data Glove[3]. Носимое устройство позволяло фиксировать движения рук с помощью компьютерной программы. Однако с развитием компьютерного зрения носимые устройства были заменены камерами, так как они более эффективны и не ограничивают пользователя в движениях[3]. Для обработки данных, собранных с помощью этих устройств, исследователи внедрили нейронные сети, такие как Stuttgart Neural Network Simulator[4], для распознавания знаков в таких проектах, как CyberGlove. Исследователи также используют множество других способов распознавания знаков. Например, скрытая марковская модель используется для статистического анализа данных[3], а GRASP и другие программы машинного обучения используют обучающие выборки для повышения точности распознавания знаков[5]. Объединение камер и контроллеров Leap Motion, показало, что они повышают качество автоматического распознавания языка жестов и программного обеспечения для перевода[6].
Технологии
SignAloud
SignAloud — это технологические перчатки, изобретенные группой студентов Вашингтонского университета, которые транслитерируют[7]американский язык жестов на английский[8]. В феврале 2015 года Томас Прайор, студент из Вашингтонского университета, первым создал прототип этого устройства на хакатоне в Университете Аризоны. Прайор продолжил развивать изобретение, и в октябре 2015 года он привлек к работе в проекте Навида Азоди для помощи со сбытом продукции и рекламой. Азоди имел богатый опыт и знания в бизнес-администрировании, а Прайор — в инженерном деле[9]. Это изобретение было одним из семи проектов, получивших премию Лемельсона, целью которой является поощрение молодых изобретателей. Их изобретение было отнесено к категории «Используй», которая включает открытия, совершенствующие существующие продукты. Они получили за свое изобретение 10 000 долларов[10].
Перчатки имеют датчики, которые отслеживают движения рук пользователя, а затем отправляют данные на компьютер через Bluetooth. Компьютер анализирует данные и преобразует их в текст на английском языке, который затем произносятся вслух электронным голосом[11]. Перчатки не позволяют работать с письменным языком, распознавать устные сообщения и интерпретировать их для глухонемого человека, что означает, что они не обеспечивают взаимного общения. Устройство также не принимает во внимание мимику и другие невербальные маркеры общения, которые могут менять характер сообщения[12].
ProDeaf
ProDeaf (WebLibras)[13] — это компьютерная программа, которая переводит текст и голос на португальский язык жестов «с целью улучшения коммуникации с глухими и слабослышащими». В настоящее время идет разработка версии для американского языка жестов. Команда проекта начала работу в 2010 году с объединения экспертов: лингвистов, дизайнеров, программистов и переводчиков, как слышащих, так и глухих. Команда сформировалась в федеральном университете Пернамбуку из группы студентов, участвующих в проекте по информатике. В группе был глухой студент, который испытывал трудности в общении с остальными. Чтобы завершить проект и помочь товарищу по команде эффективнее взаимодействовать с окружающим миром, группа создала Proativa Soluções и с тех пор развивается. Версия на американском языке жестов пока очень ограничена. Например, единственное слово на букву " j " в словаре — это «jump». Последнее обновление приложения выпущено в июне 2016 года[14].
Приложение не может превращать знаки жестового языка в слова, поэтому оно служит только для одностороннего общения.
Переводчик языка жестов Kinect
С 2012 года исследователи из Академии наук Китая и специалисты по обучению глухих из Пекинского союзного университета сотрудничают с командой Microsoft Research Asian для создания переводчика жестового языка Kinect[15]. Переводчик состоит из двух режимов: режим переводчика и режим коммуникации. В режиме переводчика знаки жестового языка переводятся в слова и наоборот. В режиме коммуникации можно переводить целые предложения, а разговор может быть автоматически переведен с помощью 3D-модели. В режиме переводчика с помощью технологии машинного обучения, распознавания образов и компьютерного зрения определяется положение рук общающегося с помощью языка жестов, а также траектории их движения. Устройство также позволяет осуществлять взаимную коммуникацию, поскольку технология распознавания речи позволяет переводить разговорный язык на язык жестов, а 3D модель может передавать сообщения глухим людям[16].
Проект был начат в Китае на основе перевода китайского языка жестов. В 2013 году проект был представлен на саммите Microsoft Research Faculty и собрании компаний Microsoft[17]. В настоящее время к проекту присоединились исследователи из Соединенных Штатов для внедрения перевода американского языка жестов[18]. На данный момент устройство все еще является экспериментальным образцом, и точность перевода в режиме коммуникации далека от идеала.
SignAll
SignAll[19] — это автоматическая система перевода на язык жестов компании Dolphio Technologies в Венгрии[20]. Это «первое автоматизированное решение для перевода на язык жестов, основанное на компьютерном зрении и обработке естественного языка, которое обеспечит постоянную коммуникацию с глухими и слабослышащими людьми, использующими американский язык жестов.» Система SignAll использует датчик движения Kinect от Microsoft и веб-камеры с датчиками глубины, подключенные к компьютеру. С помощью технологии компьютерного зрения распознаются знаки и движения рук, а система обработки естественного языка преобразует собранные данные компьютерного зрения в простую английскую фразу. Разработчик устройства — глухой, а остальная команда проекта состоит из слышащих и глухих инженеров и лингвистов. Технология имеет возможность включать все пять параметров американского языка жестов, которые помогают устройству более точно интерпретировать говорящего. SignAll был одобрен многими компаниями, включая Deloitte и LT-innovate, а также поддерживает партнерские отношения с Microsoft Bizspark и венгерской компанией Renewal[21].
Примечания
↑Mocialov, Boris; Turner, Graham; Lohan, Katrin; Hastie, Helen.Towards Continuous Sign Language Recognition with Deep Learning (англ.) // Creating Meaning With Robot Assistants: The Gap Left by Smart Devices (IEEE-RAS International Conference on Humanoid Robots). — 2017. Архивировано 10 января 2021 года.
↑Zafrulla, Zahoor; Brashear, Helene; Starner, Thad; Hamilton, Harley; Presti, Peter. American Sign Language Recognition with the Kinect. // Proceedings of the 13th International Conference on Multimodal Interfaces. ICMI '11. New York, NY, USA: ACM. — 2011. — С. 279–286.