Ученые разработали ИИ-систему для поиска по древнерусским рукописям

Ученые разработали ИИ-систему для поиска по древнерусским рукописям
Фото: Екатерина Петрова

Российские ученые создали поисковую систему на базе искусственного интеллекта для работы с рукописями XI — XVIII веков. Эта система способна распознавать документы допечатного периода и предоставлять выборку данных по конкретным запросам. На текущем этапе поиск происходит по оцифрованным рукописям миней, которые хранятся в российских библиотеках и музеях. В дальнейшем планируется добавить в базу летописи, литературные произведения, служебные и технические документы Древней Руси.

Система, разработанная специалистами из НИЯУ МИФИ и Института русского языка имени В.В. Виноградова, представляет собой комплекс программ на основе нейросетей и алгоритмов обработки больших данных. Она позволяет исследователям распознавать рукописи и выполнять из них выборку по различным параметрам, таким как исторические эпохи, отдельные темы, книги или их фрагменты.

Для работы с текстами создан сетевой ресурс «Рукописное наследие Древней Руси», оснащенный специальным интерфейсом. Процедура запросов обрабатывается аналогично обычному интернет-поисковику. Разработана также онлайн-клавиатура для набора слов старославянскими символами. На данный момент поисковая база включает 245 миней и богослужебных книг. В среднем такие книги состоят из 500 страниц.

Екатерина Петрова / realnoevremya.ru

Обработка древних текстов состоит из трех основных процессов: сегментация страницы, классификация элементов и обучение нейросети анализировать эти объекты. Среди трудностей выделяются различия в начертании знаков и особенности морфологии и синтаксиса старославянского языка.

Эксперты подчеркивают, что алгоритмы ИИ позволяют охватить весь оцифрованный объем отечественной богослужебной, художественной и технической литературы допечатного периода. Также отмечается, что в перспективе система будет полезна для анализа документов приказного делопроизводства, данных внутренних таможен и других прикладных исследований. Трудности могут возникнуть при распознавании орнаментальных элементов, таких как вязь, с ее украшениями и витиеватостями. Эксперты считают, что их распознавание будет сложной задачей для нейросетей.

Все интересное о книжной индустрии и литературе читайте в нашей рубрике «Книжная полка».

Екатерина Петрова

Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.

ТехнологииITОбществоКультураИстория

Новости партнеров