Мордовские ученые разрабатывают русско-эрзянский переводчик и чат-бот

17 апреля 2024

Сотрудники Мордовского государственного университета им. Н. П. Огарева (МГУ имени Н. П. Огарева) создают онлайн-переводчик и запустили чат-бот в Телеграм для перевода с русского на эрзянский.  Переводчик получит широкое применение в системе образования, органах госслужбы при делопроизводстве, национальных СМИ как в регионе, так и за его пределами. 

Основным инструментом для создания сервиса по переводу является параллельный корпус: текст оригинала и его перевод на другой язык располагаются рядом, причем эти два текста выровнены — отдельные фрагменты оригинала совпадают с соответствующими фрагментами перевода. На основе корпуса будут созданы наборы обучающих данных вычислительных моделей мордовских языков. Процесс перевода будет моделироваться с помощью нейронной сети.  

«Также в режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем в следующих релизах. Сейчас мы начинаем сбор аудиозаписей на эрзянском языке для решения задач синтеза и распознавания речи. Кроме того, мы собираем и предложения для языковой пары “русский — мокшанский” с дальнейшей реализацией такой же модели в виде чат-бота», — рассказал разработчик проекта, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ им. Н. П. Огарёва Артём Андронов.

Состав и содержание предложений имеет самый разнообразный характер, часто применяется не употребляемая в мордовских языках терминология. Предложения собраны из различных источников: художественные тексты, тексты официальных новостей, фразы из разговорников, учебников, научная и техническая терминология.

Чат-бот и переводчик разрабатывают в рамках программы Минобрнауки России «Приоритет-2030» (национальный проект «Наука и университеты»).