В марте 2024-го с помощью нейросети на русский язык впервые перевели книгу «Перепеч» удмуртского писателя Багай Аркаша — сборник смешных и страшных рассказов про «алкоголь, секс и рок-н-ролл» в удмуртской деревне начала XX века.
Над проектом работали всего три человека: айтишник Егор Лебедев, редактор литературного журнала «Кенеш» Анастасия Шумилова и дизайнер Вера Штыкова. И в первую очередь они хотели показать — с помощью технологий вполне реально всего за пару недель перевести, оформить и опубликовать полноценный переводной текст с языка одного народа на другой.
Как происходил перевод и чем он может быть полезен для других коренных народов — рассказывают авторы проекта.
глава 1
Идея проекта
Новая обложка книги «Перепеч». Иллюстрация: Вера Штыкова
Анастасия Шумилова: Егор занимается чем-то вроде развития нейросетей, чтобы они лучше понимали удмуртский язык. И он обратился ко мне, попросил прислать какой-нибудь текст на удмуртском. Я ему скинула что-то из соцсетей, и он стал отправлять мне фрагменты того, как нейросеть перевела эти фразы. Удивилась, потому что всё было довольно понятно и правильно.
Егор тоже не ожидал такого результата, ведь параллельных корпусов на удмуртском языке как таковых нет. Мы решили попробовать перевести художественный текст. Нейросеть опять здорово справилась.
У меня под рукой была книга «Перепеч»Аркаша Багая. В этом году ему исполняется 120 лет, и мы для журнала готовили материал о нём. Я отправила Егору рассказы, и он практически за вечер всё сделал. Я потом недельку в свободное время что-то немножко правила, но сам перевод занял буквально минуты-часы.
По словам Егора, ни у удмуртов, ни у других народов России ещё вроде не было такого опыта, чтобы прямо целая книга была переведена с помощью нейросетей. Мы думаем, это вообще впервые.
Раньше, конечно, на удмуртский больше переводили. Развитие удмуртской литературы — удмуртского литературного языка — сильно связано с количеством переводов во время коренизации. Переводилось очень много русскоязычных классиков: Пушкин, Толстой, Чехов, Тургенев. Проза, поэзия, детские произведения. В советское время литературы на удмуртском стало уже меньше, но зато, наоборот, уже удмуртских авторов стали переводить на русский. Был институт перевода, и на это выделялось финансирование.
Сейчас как таковой поддержки и системы переводов нет. Если удмуртоязычный писатель хочет, чтобы его читали на русском, он должен сам бегать, искать переводчиков, оплачивать их труд.
Нейросеть же может немного помочь познакомиться с тем, какая литература есть в национальных республиках. Ведь про современную литературу регионов, как мне кажется, мы очень мало знаем. А она живёт.
глава 2
Как это сделано
Пример перевода текста из сборника «Перепеч» в Claude 3 Opus
Егор Лебедев: Процесс перевода не такой сложный, как может показаться. Нужно всего лишь написать модели промпт (запрос), например, «переведи текст с удмуртского на русский» и вставить текст для перевода. Модель может принимать на вход большой кусок текста, однако выдавать в качестве ответа лишь его небольшую часть. Так что давать предложения надо порционно. Иногда теряются знаки препинания, кавычки, переносы строк — за этим нужно следить.
В прошлом году, во многом благодаря выходу ChatGPT, произошёл бум больших языковых моделей. Оказалось, что такие нейросети могут решать широкий спектр задач. Однако существовала, да и сейчас существует, проблема — модели понимают в основном крупные языки: английский, русский, китайский, испанский и другие. Причина этому простая — в интернете не так много текстовой информации на малоресурсных языках, в том числе на удмуртском, поэтому нейросети обучиться на таких данных трудно.
Мы переводили удмуртские тексты при помощи модели Claude 3 Opus, особенность которой, скорее всего, в том, что её обучали на большом количестве разных языков. Поэтому она неплохо справляется и с удмуртским. Вообще, Claude 3 Opus можно использовать даже как обычный переводчик. Модель создал стартап Anthropic, основатели которого — выходцы из компании OpenAI, запустившей ChatGPT.
В Яндекс.Переводчике тоже есть удмуртский язык, но они обучали свою модель для удмуртского ещё где-то в 2014—2016 годах и на очень маленьком наборе данных, поэтому качество перевода очень-очень низкое. Этот переводчик не в состоянии даже глаголы правильно просклонять.
глава 3
Про «Перепеч»
Изба в деревне Завьялово, Удмуртия, 1925 г.
Анастасия Шумилова: Я хочу подчеркнуть, что это не художественный перевод. Местами я правила чуть больше, где-то вообще не трогала. Если судить по содержанию, то нейросеть очень хорошо всё перевела. Но были и сложные для понимания места — какие-то удмуртские реалии и отдельные выражения программа интерпретировала не так.
Удмуртский текст намного смешнее, и стиль повествования интереснее. Во введении мы написали про особенности жанра рассказов «Перепеч» — про дедов-рассказчиков в удмуртской литературе, которые с юмором травят байки о жизни в деревне. Но тем не менее на русском языке тоже, мне кажется, получилось забавно.
Это книга 1927 года. Она сама по себе юмористическая, но там местами жёстко, много какого-то натурализма. Кто-то скажет, зачем мы выбрали произведение, где все пьют и происходят всякие ужасы. Но на самом деле вот эти сатирические рассказы — часть просветительской литературы. Повествование в них ведётся от лица дедов — это кочующие персонажи удмуртской литературы. Несколько писателей придумали себе такую авторскую маску, альтер-эго, и от её имени рассказывали смешные, местами жуткие, но очень поучительные истории.
18.04.2024
Спасибо, что дочитали до конца!
Понравился текст? Считаете эту тему важной? Тогда поддержите его создателей — айда к нам на Boosty!