В Telegram начал работу первый бот, который распознаёт марийскую речь. Разработчиком чат-бота выступил программист Айгиз Кунафин.
«Чат-бот умеет расшифровывать аудио на марийском (луговом) языке. Это только первая версия, поэтому есть ряд ограничений», — рассказал автор чат-бота.
По словам Кунафина, в настоящее время длина обрабатываемого аудиофайла составляет не более 5 секунд, могут быть орфографические ошибки и отсутствует пунктуация в выдаваемом результате.
Базой для создания чат-бота послужили аудиофайлы, записанные в рамках проекта Common Voice. Языковые волонтёры воспроизвели 196 часов текста на марийском языке. По прогнозам лингвиста Андрея Чемышева, в течении полугода объём датасета достигнет 300 часов.