Студентка НГУ разработала систему для распознавания старопечатных тибетских текстов
Анна Мурашкина, студентка Новосибирского государственного университета, создала систему на базе машинного обучения для автоматического распознавания и оцифровки старопечатных тибетских документов.
Проект направлен на спасение более 70 тысяч рукописей XVIII–XX веков, хранящихся в архивах Сибирского отделения Российской академии наук (СО РАН) и находящихся под угрозой разрушения. Приложение Мурашкиной работает со сверхточной нейросетью, обученной на рукописных текстах из фондов Института монголоведения, буддологии и тибетологии СО РАН.
Анна вручную выполнила лингвистическую разметку строк тибетского текста и разработала систему оценки качества оптического распознавания символов с учетом специфики тибетской графики. После проделанной работы система распознает символы тибетского письма, восходящего к древнеиндийскому брахми, с точностью выше, чем у аналогов. Процесс работы автоматизирован от сегментации изображений до постобработки данных.
Мурашкина отмечает, что тексты содержат уникальные данные по философии, медицине и истории Тибета, но бумажные носители разрушаются из-за времени и климата. В планах — внедрение системы в работу архивов СО РАН и переговоры о сотрудничестве с Буддийским центром цифровых технологий для оцифровки документов монастырей.