От оцифровки – к искусственному интеллекту. В Якутии создадут Корпус якутского языка

В прошлом году увидел свет последний, 15-й, том Большого толкового якутского словаря, работа над которым продолжалась почти полвека, после чего глава Якутии Айсен Николаев дал поручение сделать его оцифровку. Сейчас это богатство – 80 тысяч слов! – доступно каждому. Но работа продолжается, и об этом газете «Якутия» рассказал сотрудник Института гуманитарных исследований и проблем малочисленных народов Севера СО РАН Василий Бочкарев.

Прообраз будущего

– Сейчас мы работаем над созданием базы Большого толкового якутского словаря (БТСЯЯ), который также является базой для будущего Корпуса якутского языка, куда будут включены примеры из художественной литературы, публицистики, устной речи и фольклора.

Сам словарь, изданный под руководством П.А. Слепцова и В.Д. Монастырева, получился логически хорошо продуманным, и посему работа над созданием электронного варианта идет довольно легко. Единственная сложность – большой объем информации.

– Это же все богатство нашего языка!

– Как я уже сказал, данный словарь – прообраз будущего электронного Корпуса якутского языка. От всех прочих ранее созданных он отличается расширенной функциональностью, что дает лингвисту простор для исследовательской работы: за несколько минут можно создать свой собственный оригинальный словарь для определенных целей и задач.

Для расширения возможностей в состав программы дополнительно внесены материалы других словарей – скажем, фразеологические словари Анатолия Гаврильевича Нелунова и Никиты Спиридоновича Григорьева, малый словарь Алексея Елисеевича Кулаковского-Ексекюляха…

«Он оказался универсальным»

– За образец мы взяли Национальный корпус русского языка, считающийся лучшим в мире. В него включены, скажем, и образцы подростковой речи, и творчество современных писателей – например, Евгения Гришковца.

– Еще и подростковой речи, надо же.

– Помимо этого, мы с директором Института языков и культуры народов Северо-Востока РФ СВФУ Гаврилом Торотоевым разрабатываем программу морфологических анализаторов – шаг к созданию искусственного интеллекта, думающего на якутском, поскольку именно морфологический анализ позволит компьютеру понять смысл слова.

Но вот что интересно: алгоритм морфологического анализатора мы создали единственно под якутский язык, но, к нашему большому удивлению, он оказался универсальным и отлично подходит, скажем, под киргизский язык. Этим фактом очень заинтересовался доктор филологических наук Ибраим Абдувалиев из Института языка и литературы Национальной академии наук Кыргызстана. Мы уже попробовали с ним адаптировать программу. Думаю, эта работа продолжится, и, возможно, наш анализатор станет универсальной международной платформой.

– Тьфу-тьфу-тьфу, чтоб не сглазить!

Компьютерная лингвистика: догнать и перегнать

– Недавно, осенью 2019 года, я был в командировке в Уфе, чтобы ознакомиться с опытом коллег по созданию корпуса языка и машинного фонда. Башкиры свой машинный фонд давно создали, хотя их там всего четверо, но это настоящие фанаты своего дела. Руководит ими Зиннур Амирович Сиразитдинов – это просто какой-то неутомимый двигатель науки, благодаря ему появилась и встала на ноги башкирская компьютерная лингвистика. Можно сказать, это уже целая школа. Татары, взяв с них пример, стали в компьютерной лингвистике лучшими из всех тюркских народов России.

Мы же начали всего года полтора назад – по инициативе нашего директора Натальи Иннокентьевны Поповой. Отстаем пока прилично – коллеги из других регионов и стран уже больше десяти-двадцати лет этим занимаются, а некоторые – более полувека, но, думаю, нам удастся быстро наверстать.

– Их опыт вам на пользу.

– Кстати, машинный фонд будет создан и для эвенского, эвенкийского, юкагирского языков. Когда у нас появится свой сервер, мы начнем загружать на него словари, потом настанет черед вводить их в машинный фонд, а это уже не только словари, но и терминология, труды учёных, примеры из литературы.

Богатства машинного фонда

– В якутский машинный фонд, например, загружены консолидированные словари, терминологические, якутско-русский переводчик, якутско-казахский, который появился даже раньше якутско-русского, потому что это родственный нам язык, с ним намного легче работать, и мы его взяли за образец. Со временем появятся остальные переводчики.

– Какие?

– Время покажет. Сейчас мы работаем над фольклорным корпусом, откуда можно брать любые отрывки, в отличие от, скажем, художественной литературы или публицистики, где действует авторское право и связанные с ним сложности.

Но так как институт у нас довольно большой, время от времени в разных его отделах созревают разные интересные проекты и работы, которые бывает невтерпеж оцифровать в тот же день. Недавно сын Багдарыына Сюлбэ Ньургун принес материалы по топонимике, это очень интересная и очень ценная для народа и науки работа. Их мы включим в состав программы БТСЯЯ и Корпуса.

Во имя науки

– А когда вы вообще заинтересовались этим делом?

– Ещё в школе. Прочел статью в газете, как всем нам известный Word переводят на якутский. Мне стало интересно, а тут как раз на Президентской ёлке мне подарили компьютер.

– За заслуги в области лингвистики?

– Нет, физики. Два года подряд я занимал 1-2 места на научно-практической конференции «Шаг в будущее», за что спасибо моей руководительнице Зое Петровне Алексеевой. Но и в литературных конкурсах тоже участвовал.

– И физик, и лирик!

– В школе – Тумульской средней школе Усть-Алданского района – у меня были очень сильные учителя по якутскому языку: Татьяна Петровна Находкина, Акулина Степановна Сокольникова, Нюргуяна Коммунаровна Барашкова. А статья про якутизацию Wordа, о которой я говорил выше, так меня «зацепила», что я сам начал проводить похожие эксперименты на компьютере.

– И к чему они привели?

– Компьютер сломался.

– Пал жертвой во имя науки.

«Присматриваем кадры»

– Позже, учась на факультете якутской филологии, я занялся разработкой своего сайта, который назвал «Эйгэ» («среда, окружающее пространство»). Но он был посвящен не только якутскому языку, там были эвенский и эвенкийский подразделы.

– Значит, вы ещё студентом определились, чем собираетесь заниматься в будущем.

– А я и сейчас студент. Получаю второе высшее, вернее, заканчиваю заочно физический факультет СВФУ по специальности «учитель физики и информатики».

– Вот все и встало на свои места. А в вашем отделе каждый сотрудник – лингвист-технарь?

– Отдела как такового пока нет, но кадры мы уже присматриваем. В наш будущий отдел хотелось бы набрать людей, похожих на тех, с которыми я познакомился в Уфе, – с горящими глазами.

Кюннэй Еремеева

http://ysia.ru/ot-otsifrovki-k-iskusstvennomu-intellektu-v-yakutii-sozdadut-korpus-yakutskogo-yazyka/