Экзо-татарский цифровой мир

Как помочь нейросети с государственными языками республики?

Экзо-татарский цифровой мир
Фото: Радиф Кашапов

Переводчик Фархад Фаткуллин, в 2018 году объявленный «викимедийцем года» за «общественную организационную работу среди представителей сообществ, говорящих на региональных языках России», и продолжающий деятельность по сохранению и развитию родного татарского, решил написать колонку в связи с выступлением в середине апреля Александра Крайнова. Директор по развитию технологий искусственного интеллекта «Яндекса» обратил внимание, насколько мало текстов на некоторых языках в интернете.

«Их не просто недостаточно — их нет»

Как переводчику-синхронисту, чья жизнь проходит в служении участникам отраслевых конференций в ходе мероприятий, а также предварительном изучении и осмыслении тем предстоящих обсуждений, любое приглашение сформулировать и озвучить свое мнение по важному вопросу всегда приятно, ценно и полезно. Тут мои и генеративный, и основанный на знаниях и правилах интеллекты в диалоге с моими сердцем и душой получают право творить нечто «самостоятельно».

В месяц Тукая таким поводом стали слова директора «Яндекса» по развитию технологий искусственного интеллекта (ИИ) на форуме Data Fusion 2024 18 апреля. Он де-факто повторил три из четырех тезисов, что я ранее озвучивал на примере татарского и всех иных языков многонационального Татарстана, отвечая на вопросы местных и московских журналистов, членов правительства РТ и Комиссии по вопросам сохранения и развития татарского языка, нашего глубокоуважаемого Государственного Советника, представлял на конференциях Федерального агентства по делам национальностей, Общественной палаты и так далее, даже на семинаре в Госсовете РТ.

«На английском языке [хороших текстов в интернете] много. Не то что достаточно, а даже избыточно, не обязательно брать все. На русском языке мы собираем все, до чего можем дотянуться… и как-то более-менее хватает для создания качественных языковых моделей, но жиру [избытка] никакого нет.... А если говорить об узбекском, таджикском или казахском языках, не говоря уже о бурятском или татарском, то их не просто недостаточно — их нет», — сказал Александр Крайнов.

Перефразируя уважаемого эксперта: на экзотически редких и безумно бедных своим тематическим разнообразием текстах на казахском, узбекском и прочих татарских и бурятских языках адекватной нейросетки пока не построить. А обслуживание коммуникационных нужд носителей этих языков потребует машинного перевода поверх английского, русского, китайского, арабского или иного генеративного ядра.

Взглянем на более широкий контекст. 6 февраля на форуме «Цифровая экономика» руководитель Минцифры РФ Максут Шадаев объявил об ожидающемся доступе к «Госуслугам» через виртуальные помощники. Яндекс-станция «Алиса» уже говорит по-казахски. Работают и непрерывно совершенствуются translate.tatar и speak.tatar от Института прикладной семиотики. Люди всюду на планете активно используют ИИ для своих рабочих задач, что повышает производительность труда и создает немыслимую ранее добавленную экономическую стоимость.

Возможно, полноценный татарский культурно-ценностный виртуальный мир далеко за горизонтом, но татароязычный уже за углом.

Обратите внимание на подпись внизу. скриншот с сайта tatarstan.ru

Сделаем тексты достоянием мира

Горевать и убиваться по пока не существующей суверенной цифро-татарскости смысла нет. Со временем ситуация улучшится, особенно за счет редактирования носителями языка машинных переводов на татарский.

Учтем, что представитель «Яндекса» косвенно озвучивает общенаучный и отраслевой консенсус, что англоязычные модели ИИ в целом сильнее, точнее и надежнее — там только китайцы где-то рядом, а остальные — аутсайдеры. Не только русские, но и французы с их очень неплохим Mistral'ем. В целом же все языки и иные накопленные поколениями людей культурные знания — всеобщее нематериальное наследие. Так что все в одной упряжке. А если вспомнить основной закон кибернетики и принцип GIGO («мусор на входе — мусор на выходе»), то человеку важно совершенствовать свое умение формулировать вопросы и задачи. Тут широкий научный кругозор, а также полноценное многоязычие и поликультурность среды, человека и всех его искусственных слуг важнее и ценнее силы, мощи и скорости.

Татарская история и культура учат двигаться только вперед, накапливать знания и переосмысливать опыт, создавать среду, удобную для взаимодействия на равных, и обогащать всех участников этого вече. В эру человеко-машинного сотрудничества ценный вклад в жизнеспособность татарской культуры делает каждый носитель языка, что доводит до ума порожденный самостоятельно или вместе с машиной татароязычный текст и делает его достоянием всего мира.

Тут всем татароязычным и прочим языковым креаторам, радеющим за будущее языка, рекомендовал бы публиковать свой контент под свободными лицензиями. Минимум CC-BY, как на kremlin.ru, tatarstan.ru, tatar-congress.org, kzn.ru и так далее. Даже при загрузке на YouTube можно указать. А лучше CC0 и аналогами — как на wikidata.org, osm.org, flikr.com и других.

Иначе разработчики всех будущих поколений нейросетей и машинных переводчиков могут начать избегать его и в РФ, и за рубежом. В апреле стало известно, что некоторые СМИ уже начали запрещать «Яндексу» использовать свой контент для ИИ.

Фархад Фаткуллин

Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.

Справка

Мнение автора может не совпадать с позицией редакции «Реального времени».

Технологии Татарстан

Новости партнеров