Эксперт назвал ключевые вызовы в цифровизации языков народов России

Качество данных, авторские права и кадры являются главными проблемами при оцифровке языков
Андрей Николаевич Михеев
Андрей Михеев (Фото: Павел Стариков / Кидшер)

Качество данных, авторские права и кадры являются главными вызовами при цифровизации языков. Об этом заявил заместитель руководителя проекта «Языки народов России» компании «Яндекс» Андрей Михеев на конференции «Цифровизация языков народов России: масштабирование опыта и перспективы».

Для обучения нейросетей необходимы большие массивы «чистых» текстов. Однако на практике существует проблема «грязных» данных — материалов, обработанных устаревшими системами перевода с низкой точностью. Кроме того, доступные корпуса часто ограничены по тематике, что снижает качество перевода на специфические темы.

Значительная часть текстов на языках народов России находится в закрытых источниках или под защитой авторского права. Легальный сбор и использование таких материалов для обучения языковых моделей требуют дополнительных юридических соглашений и механизмов, что замедляет работу.

Наблюдается нехватка специалистов, которые одновременно глубоко владеют национальным языком и имеют компетенции в сфере IT. Без таких кадров, отметил Михеев, невозможно ни качественное формирование обучающих выборок, ни валидация результатов работы нейросетей.

При этом представитель «Яндекса» подчеркнул, что компания видит и пути решения: использование компьютерного зрения для распознавания текстов из архивов, автоматическая обработка устной речи, а также активное привлечение носителей языков и исследователей к сотрудничеству.

Проект «Языки народов России» реализуется в «Яндексе» с 2023 года. Сервисом компании охвачено около 10 млн носителей языков, ежемесячная аудитория проекта превышает 390 тысяч уникальных пользователей. Количество языков народов России, доступных в «Яндекс.Переводчике», приближается к 20.

Кидшер
Расскажите, что вы думаете по поводу этого текста