
Представьте: оператор стоит перед промышленным роботом, никуда не нажимает, просто делает жест рукой. Робот видит движение, распознает команду и выполняет ее.
Именно так работает система, которую создали ученые Донского государственного технического университета (ДГТУ) вместе с МГТУ «Станкин». В ее основе — алгоритмы компьютерного зрения и нейросетевые технологии. Программа распознает один из десяти жестов оператора и передает команду на контроллер робота. Там заранее прописано, какому жесту соответствует какое действие манипулятора. И никаких кнопок и физического контакта, никаких импортных решений.
Два датчика, один алгоритм: как математика помогает видеть
Современные коллаборативные роботы — коботы — работают рядом с человеком в одном пространстве. Чтобы выполнять команды оператора, им нужна система технического зрения — они должны видеть, где находится человек и что он делает. Обычно такие системы зарубежного производства и уже встроены в оборудование. Ученые ДГТУ предложили альтернативу: собственный алгоритм на основе искусственного интеллекта.
Система объединяет данные двух датчиков: обычной камеры (RGB) и датчика глубины. Они компенсируют недостатки друг друга, поэтому распознавание остается точным даже при плохом освещении или потере сигнала. На основе этих данных формируется дескриптор — вектор признаков, который достаточно полно описывает движение оператора.
«В рамках нашего подхода дескриптор — это компактное математическое представление позы или движения человека, которое извлекается из видеопотока. Логарифмическая обработка изображений применяется для повышения устойчивости к изменениям освещения и контраста: она сжимает диапазон яркостей, делая алгоритм менее чувствительным к перепадам света на производстве. Это повышает надежность и устойчивость распознавания», — поясняет руководитель проекта Марина Жданова.
Десять жестов: почему именно столько
Промышленный робот не понимает человеческий язык, а вот жесты — другое дело. Но прежде чем его учить, нужно было решить вопрос: а какие жесты вообще использовать? Простого ответа не нашлось, так как в России нет готового стандарта для бесконтактного управления роботами. Тогда ученые обратились к зарубежным исследованиям.
«За основу мы взяли общедоступный набор данных UTD-MHAD, собранный в Техасском университете в Далласе, — рассказывает Марина Жданова. — Из него использовали восемь жестовых команд, а также добавили два собственных класса: „падение“ и „бездействие“. Таким образом, общее число жестов/состояний достигло 10, так мы собрали свой набор видеороликов».
Отдельно был решен вопрос ошибок. Алгоритм настроен так: если он сомневается — то просто не выдает результат. Такой подход снижает риск ошибок: разработчики опасались, что робот может выполнить опасную команду из-за случайного движения человека — например, если оператор потянулся или просто почесал нос.

Когда машина слушается взмаха руки
Главный акцент системы — на безопасности оператора, — подчеркивают разработчики. При этом заложенный в программу принцип управления через жесты делает взаимодействие с машиной интуитивно понятным, а это открывает перспективы для ее использования в стратегическом проекте ДГТУ — разработке беспилотного трактора «Донтех».
«Управление жестами может применяться для бесконтактного управления навесным оборудованием или вспомогательными функциями трактора — например, включения-выключения механизмов, изменения режимов, — объясняет руководитель проекта. — Это особенно актуально в условиях, когда оператор не может использовать обычные органы управления (находясь в стесненных условиях, при необходимости следить за полем). Система распознает интуитивные жесты без физического контакта с панелью».
Сегодня — в лаборатории, завтра — на производстве
Сейчас разработка находится на стадии лабораторных испытаний — прежде чем выходить на промышленное внедрение, команда собирается доработать ее и улучшить. И это вписывается в большую национальную цель. В мае 2024 года президент подписал указ, согласно которому Россия к 2030 году должна войти в топ-25 стран мира по плотности роботизации. По оптимистичному прогнозу, к тому времени в стране на каждые 10 тысяч работников будет приходиться 185 роботов.

Заглянуть за горизонт: три доработки до идеала
Пока система проходит испытания, у разработчиков уже рождаются новые идеи. Марина Жданова назвала три направления, по которым команда хотела бы развивать проект:
Первая — идентификация по лицу: чтобы система сама понимала, кто перед ней, и разграничивала права доступа операторов.
Вторая — распознавание состояния оператора, но не эмоций, а признаков утомления или засыпания. Такие системы уже используют для водителей, здесь тот же принцип.
Третья — режим позиционирования (манипулятивный режим), при котором функции рабочего органа робота схожи с функциями руки человека.

Кто делает
За проектом стоит межвузовская команда. Руководит ею старший преподаватель кафедры «Кибербезопасность информационных систем» факультета «Информатика и вычислительная техника» ДГТУ Марина Жданова. В коллективе — и. о. декана факультета «Автоматизация, мехатроника и управление» Николай Гапон, специалисты той же кафедры и студенты. Со стороны МГТУ «Станкин» участвует магистрант Илья Хамидуллин. На реализацию проекта ученым потребовалось два года.
Где пригодится
Новое ПО практически уже готово к применению в промышленности — с его помощью можно автоматизировать погрузку, сборочные операции, окрашивание, лазерную обработку, маркировку и другие совместные операции человека и робота. По словам ученых, технология будет полезна крупным корпорациям, малому и среднему бизнесу, а также лабораториям, исследовательским центрам, больницам, электростанциям и агропредприятиям, применяющим роботов и беспилотную технику.
Разработка выполнена в рамках гранта Российского научного фонда, ее результаты соответствуют направлению НПТЛ «Средства производства и автоматизации» и направлены на развитие отечественных промышленных манипуляторов.
Проект реализуется в рамках программы Минобрнауки России «Приоритет-2030» (национальный проект «Молодежь и дети») и федерального проекта «Технологии».