Качество данных, авторские права и кадры являются главными вызовами при цифровизации языков. Об этом заявил заместитель руководителя проекта «Языки народов России» компании «Яндекс» Андрей Михеев на конференции «Цифровизация языков народов России: масштабирование опыта и перспективы».
Для обучения нейросетей необходимы большие массивы «чистых» текстов. Однако на практике существует проблема «грязных» данных — материалов, обработанных устаревшими системами перевода с низкой точностью. Кроме того, доступные корпуса часто ограничены по тематике, что снижает качество перевода на специфические темы.
Значительная часть текстов на языках народов России находится в закрытых источниках или под защитой авторского права. Легальный сбор и использование таких материалов для обучения языковых моделей требуют дополнительных юридических соглашений и механизмов, что замедляет работу.
Наблюдается нехватка специалистов, которые одновременно глубоко владеют национальным языком и имеют компетенции в сфере IT. Без таких кадров, отметил Михеев, невозможно ни качественное формирование обучающих выборок, ни валидация результатов работы нейросетей.
При этом представитель «Яндекса» подчеркнул, что компания видит и пути решения: использование компьютерного зрения для распознавания текстов из архивов, автоматическая обработка устной речи, а также активное привлечение носителей языков и исследователей к сотрудничеству.
Проект «Языки народов России» реализуется в «Яндексе» с 2023 года. Сервисом компании охвачено около 10 млн носителей языков, ежемесячная аудитория проекта превышает 390 тысяч уникальных пользователей. Количество языков народов России, доступных в «Яндекс.Переводчике», приближается к 20.
