От букваря до нейросети: лучшие практики сохранения языков народов России в цифровой среде

Лучшие практики и успешные кейсы, которые помогают сохранять лингвистическое разнообразие России с помощью технологий — в материале «Кидшер»
Арт-объект Марий тиште
Фото: Павел Стариков / Кидшер

В эпоху глобализации и развития технологий будущее языков напрямую зависит от их присутствия в цифровом пространстве. Для многонациональной России, где насчитывается около 150 языков, этот вопрос стоит особенно остро. Отсутствие языка в интернете, поисковиках и мобильных приложениях рискует оставить его на периферии современной жизни, особенно для молодого поколения.

Эксперты и языковые активисты единодушны: цифровизация перестала быть набором разрозненных инициатив и превращается в целостную экосистему. Лучшие практики и успешные кейсы, которые помогают сохранять лингвистическое разнообразие России с помощью технологий — в материале «Кидшер».

Интеграция в массовые сервисы: проект «Яндекс.Переводчика»

Одним из наиболее масштабных проектов последних лет стало сотрудничество Федерального агентства по делам национальностей (ФАДН), Дома народов России и компании «Яндекс». Отправной точкой стал тревожный факт: несколько лет назад в крупнейшем отечественном сервисе онлайн-перевода было представлено всего восемь языков народов России.

Для запуска модели машинного перевода необходимы большие и качественные корпуса текстов — минимум 100 тысяч параллельных предложений. Регионы, научные институты и языковые активисты собирают эти данные и передают их разработчикам.

Например, центр «Бэлиг» из Бурятии в 2024 году перевел и собрал более 120 тысяч параллельных предложений для русско-бурятского переводчика. Специалисты Югорского НИИ информационных технологий совместно с Обско-угорским институтом прикладных исследований и разработок подготовили материалы для включения мансийского языка.

Сегодня рабочая группа при ФАДН объединяет 20 регионов и ведет работу над 35 языками. В 2024–2025 годах в «Яндекс.Переводчике» появились осетинский, абазинский, бурятский, кабардино-черкесский, карачаево-балкарский, коми, мансийский, ногайский, тувинский, мокшанский и эрзянский языки. Особой вехой стало включение мансийского — первого языка коренных малочисленных народов Севера в этом сервисе.

Яндекс.Переводчик
Фото: Иван Николаев / Кидшер

Голосовые технологии и синтез речи

Следующий уровень цифровизации — не просто перевод текста, а возможность говорить с технологией на родном языке.

  • Умная колонка «Һомай» (Башкортостан). Разработчик Айгиз Кунафин представил проект умной колонки, которая говорит на башкирском языке. Это пример того, как голосовые помощники могут стать частью повседневной жизни, делая родной язык естественным средством общения с технологиями.
  • Для башкирского, марийского, чувашского и удмуртского языков в сервисы Яндекса добавлены функции синтеза и распознавания речи. Это позволяет не только переводить текст, но и озвучивать его или использовать голосовой ввод.
  • В Ханты-Мансийском автономном округе создана вопрос-ответная система «А ги», которая общается на языке манси. Это еще один шаг к тому, чтобы языки коренных народов звучали в цифровом мире.
Станция Алиса
Источник фото: Gastore.ru

Мобильные приложения и специализированные платформы

Помимо крупных корпораций, важную роль имеют локальные инициативы и энтузиасты.

  • Ayana — голосовой помощник на эвенкийском. Это первый в мире случай, когда машина заговорила на редком языке коренных народов Севера. Руководитель проекта Николай Апросимов отмечает, что технологии открывают новые горизонты для сохранения национальной идентичности.
  • «Татар галәме» — образовательный портал. Проект Казанского федерального университета объединяет существующие материалы дошкольного, школьного и высшего образования на татарском языке, создавая единую среду для непрерывного обучения на родном языке.
  • «Удмурт диджитал» и приложение «Кылдысин»: раскладки клавиатуры, электронные словари и параллельные корпуса текстов. Приложение «Кылдысин» стало важным инструментом для изучения и использования удмуртского языка в повседневной жизни.
Смартфон, сотовый телефон, телефон, парень, мобильный, приложение
Фото: Patcharin / Сrushpixel

Креативные форматы: комиксы, мультфильмы и соцмедиа

Чтобы привлечь молодежь, традиционные уроки должны уступить место интерактивному контенту.

Этнокомиксы и мультфильмы на Ямале. Правительство ЯНАО совместно с телекоммуникационной компанией выпустило сборник этнокомиксов «Ожившие легенды Севера». А Национальная библиотека Ямала запустила проект с олененком Гошей, который путешествует по тундре и знакомит детей с культурой и языком ненецкого народа.

«Менд!Медиа». Креативная команда активно использует социальные медиа для продвижения калмыцкой культуры. Они сочетают современные форматы с традиционными темами: создают документальные фильмы, переводят мультфильмы и поддерживают местные инициативы.

Системная работа: корпуса, словари и господдержка

Цифровизация невозможна без фундаментальных исследований и координации усилий.

Дом народов России в 2024 году провел мониторинг состояния языков в IT-сфере. Результаты показали неравномерность цифрового развития: электронными словарями обеспечены 70 языков, мобильные приложения есть для 55 языков, а языковыми корпусами — для 36. При этом системы проверки правописания разработаны лишь для 11 языков. Такие исследования помогают определить точки роста.

На государственном уровне запускается проект по созданию верифицированной библиотеки культурных данных — орнаментов, обрядов, текстов. К его наполнению привлекут регионы, музеи, библиотеки и архивы. Это позволит избежать рисков генерации ложных данных искусственным интеллектом.

В декабре 2025 года на Форуме «Языковая политика в Российской Федерации» подписаны соглашения между Яндексом и Марийским государственным университетом, а также между Домом народов России и центром «Бэлиг» из Бурятии.

От букваря до нейросети: лучшие практики сохранения языков народов России в цифровой среде

Универсальные советы: как цифровизовать язык

Обобщая опыт успешных проектов, можно выделить несколько ключевых рекомендаций:

  1. Начинать необходимо со сбора параллельных корпусов. Без массива качественных текстов невозможно обучить модели машинного перевода. Для базы данных хорошо подойдёт художественная литература, учебники, газеты и фольклор.
  2. В реализации проектов нужно подключать языковых активистов. Именно носители языка часто являются первоисточником живых, актуальных текстов и драйверами цифровизации.
  3. Использование технологических ухищрений. Если объем текстов недостаточен, применяйте обучение на родственных языках и метод обратного перевода.
  4. Создание различных форматов. Раскладки клавиатуры, голосовые помощники, образовательные порталы и развлекательный контент формируют полноценную языковую среду.
  5. Интеграция в популярные платформы. Появление языка в сервисах, которыми ежедневно пользуются миллионы людей, меняет его восприятие. Язык перестает быть «языком бабушек и дедушек» и становится современным.

Взгляд в будущее

По словам начальника Управления госполитики в сфере межнациональных отношений ФАДН России Тимура Цыбикова, появление языков в онлайн-переводчике — лишь первый шаг. Впереди создание более сложных электронных инструментов: систем проверки орфографии, технологий синтеза и распознавания речи, больших языковых моделей и голосовых помощников .

В планах на 2026 год — добавить в «Яндекс.Переводчик» еще шесть языков и расширить пул языков с голосовыми технологиями. А значит, у языков народов России появляется цифровое будущее, в котором каждый из них сможет найти свое место в киберпространстве.

Кидшер
Расскажите, что вы думаете по поводу этого текста