Русско-марийский словарь с электронной версией будет издан в 2019 году

Русско-марийский словарь с электронной версией планируется издать в декабре 2019 года. В неё войдут более 40 тысяч слов, рассказал сотрудник отдела языка Марийского научно-исследовательского института языка, литературы и истории им. В.М. Васильева Андрей Чемышев.

Работы по созданию издания ведут учёные Марийского института языка, литературы и истории им. В.М.Васильева и языковедов Марийского государственного университета.  Руководителем проекта является кандидат филологических наук Марина Ипакова. Редакторами выступают  доктор филологических наук Любовь Абукаева и кандидат филологических наук Валентина Гаврилова. Составители, выполнив свою работу отправляют её руководителю проекта.

Фрагмент русско-марийского словаря после экспорта в MediaWiki (.txt)

«Текстовый документ составителя в офисном пакете LibreOffice с помощью плагина Wiki Publisher в LibreOffice экспортируется. Получаем текстовый файл в вики-разметке, который размещаем на сайте с вики-движком. Редакторы словаря вычитывают и правят текст на сайте. Словарь из сайта экспортируем в html. Сначала этот html-файл валидируем. Далее с помощью команд grep, sed и регулярных выражений делим текст на две части (на два файла): с русским и марийским текстами», — рассказал компьютерный лингвист.

Фрагмент русско-марийского словаря после экспорта в html

Кроме того, файл с русским текстом проходит через скрипт с русским HunSpell-ом, а с марийским — через марийский. Выявляется список ошибок.

«Это могут быть и ошибки, опечатки, или, например, теги не там проставлены. Также приводим к единому виду список сокращений: например, один составитель использовал сокращение уст., а другой — устар. Проверяем ссылки: например, в словарной статье есть отсылка см. слово, а этого слова нет в словаре. После того, как всё будет выправлено, из сайта копируем текст и ставим в текстовый редактор: Word или LibreOffice Writer», — сообщил Чемышев.

Фрагмент русско-марийского словаря в текстовой редакторе

Компьютерный лингвист рассказал, что после вёрстки и вычитки корректором вносятся окончательные правки и только потом макет уходит в типографию. Составители параллельно выпускают и электронную версию словаря. Лингвист надеется, что издание будет презентовано ко Дню марийской письменности. Оно будет доступно в бумажной версии и в виде электронного словаря.


По мере готовности материалы словаря выкладываются на сайте марийской лаборатории для общественного обсуждения. Создатели словаря просят свои замечания и предложения отправлять по адресу: marinaipakova@rambler.ru


Отметим, что параллельно ведётся работа по созданию Национального корпуса марийского языка, который планируется запустить в 2020 году. Ресурс будет включать в себя более 20 миллионов словоупотреблений.

Кидшер