Разработчики компании «SberDevices» доработали модели mGPT для малых языков России и стран СНГ (Содружество Независимых Государств), сообщила представитель компании.
В июле 2023 года компания запустила модель mGPT-13B, способную генерировать тексты на 61 языке, теперь программисты усовершенствовали 23 языковые модели.
«Сегодня мы представляем семейство моделей-экспертов на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель уже владела этими языками, но нам хотелось сделать максимально качественные отдельные моноязычные модельки, использовав доступные открытые сеты», — сказано в сообщении.
В число продвинутых языковых моделей вошли: азербайджанский, башкирский, белорусский, грузинский, калмыцкий, марийский, осетинский, персидский, румынский, татарский, туркменский, узбекский, украинский, чувашский, якутский и др.
mGPT (Machine Translation with Generative Pre-trained Transformers) — это класс языковых моделей, которые генерируют тексты на основе предварительно обученных трансформерных сетей. mGPT обучается на большом корпусе текстов на естественных языках, таких как английский, испанский и китайский, и может переводить тексты с одного языка на другой.