Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11

Какие языки умрут из-за ИИ: чистка Википедии и Инкубатор

Эти ошибки попали в обучение нейросетей, и от этого их стало ещё больше — вплоть до того, что гренландский раздел Википедии пришлось закрыть.

208 открытий2К показов
Какие языки умрут из-за ИИ: чистка Википедии и Инкубатор

Редакция Tproger подготовила адаптированный перевод материала MIT Technology Review. В нём рассказывается, как автоматические переводчики и нейросети наполняют разделы Википедии на малоиспользуемых (африканские, малагасийский, йоруба и шона и другие) языках ошибочными статьями, почему это запускает порочный круг и что угрожает будущему малочисленных языков.

С чего все началось

Когда Кеннет Вэр четыре года назад взялся за руководство гренландским разделом Википедии, он практически всё удалил. У этого 26‑летнего немца, который после подростковой поездки в автономную территорию Дании стал изучать гренландский язык и переехал в Копенгаген, за плечами были годы работы над англоязычными статьями о Гренландии.

В начале 2000‑х появилась версия Википедии на гренландском; к моменту прихода Вэра в ней было около 1500 статей. На вид — успех краудсорсинга: десятки тысяч статей, сотни авторов. Однако он обнаружил, что почти никто из них не говорил по‑гренландски, и большинство страниц были забиты машинными переводами.

Выглядело это как гренландский, но авторы не могли этого проверить. Предложения не имели смысла или содержали очевидные ошибки. ИИ‑переводчики очень плохо работают с гренландским
Кеннет Вэрпереводчик гренландской Википедии

Оказалось, что гренландская Википедия — мираж

Эта проблема не уникальная. Википедия — второй по масштабу многоязычный проект после Библии: существуют версии более чем на 340 языках, и ещё около 400 тестируются. Многие из небольших разделов оказались наводнены автоматическим переводом, поскольку ИИ становится доступнее.

Волонтёры, работающие с четырьмя африканскими языками, рассказали MIT Technology Review, что 40–60 % их статей — неотредактированные машинные переводы. Аудит разделов показал: более двух третей страниц со сколько‑нибудь длинными текстами содержат автоматически переведённые фрагменты.

Это порождает сложную проблему. Системы от Google Translate до ChatGPT учатся, анализируя огромные массивы текстов из интернета. Для языков с мало письменных ресурсов Википедия часто — главный источник данных. Ошибки на этих страницах отравляют общий колодец, из которого черпают модели, что делает переводы ещё хуже и запускает рекурсивную спираль: чем больше некорректных статей, тем больше ошибочных данных получают ИИ, и тем хуже становятся новые переводы.

Эти модели строятся на исходных данных, теперь создающий софт для языков под угрозой исчезновения. Они учат язык с нуля. Нет других источников — ни грамматик, ни словарей, только введённый текст.
Кевин Скэннеллбывший профессор компьютерных наук Университета Святого Людовика

Данных о масштабе бедствия нет: многие наборы для обучения ИИ закрыты, а сама индустрия быстро меняется. В 2020‑м Википедия составляла более половины корпусов для перевода некоторых африканских языков, включая малагасийский, йоруба и шона. В 2022‑м исследователи из Германии выяснили, что для 27 малообеспеченных языков Википедия — практически единственный доступный источник текстов.

Последствия могут быть серьёзными: плохо написанные статьи способны подтолкнуть самые уязвимые языки к исчезновению, если молодые поколения начнут их избегать. Тронд Тростеруд, вычислительный лингвист из Университета Тромсё, предупреждает: чем сильнее позиция Википедии, тем больше вред. «Трудно представить, что это не скажется», — говорит он.

Автоматизация: от ботов до ИИ

С ранних дней Википедия использует ботов для исправления ссылок, форматирования и опечаток. Они делают множество рутинных задач за людей. Есть и боты, автоматически генерирующие короткие статьи по шаблону — о реках, городах, животных. Эти роботы обычно улучшают платформу.

Но ИИ даёт любому возможность сделать плохую статью за пару кликов. Википедия пока справляется лучше соцсетей: она не наводнена дезинформацией, остаётся открытой и бесплатной, управляется самим сообществом. Однако маленькие разделы зависят от числа активных участников. Англоязычная версия процветает, гренландская — борется за жизнь.

Нам нужны хорошие википедисты. Это не магия. Если пользоваться машинным переводом ответственно, он может быть полезен. К сожалению, не всем можно доверять.
Амир Ахарониисследователь из Комитета по языкам, который рассматривает заявки на открытие или закрытие разделов

Тростеруд вводит термин «угонщики Википедии» для описания пользователей, массово создающих плохие страницы. Это и подростки, пишущие про свой посёлок или любимого блогера, и энтузиасты, уверенные, что добавлением статей они помогают сообществам. Теперь у них есть Google Translate и ChatGPT, поэтому они могут штамповать длинные тексты, которые на первый взгляд выглядят правдоподобно. Раньше их ограничивали бумажные словари, теперь только время.

Проблема особенно заметна для уязвимых языков. Причины разные: мало данных, языки похожи на другие, а структуры многих языков — например, гренландского, инуктитута и большинства коренных языков Северной Америки — плохо подходят под существующие модели перевода. В гренландском, как и во многих инуитских языках, слова агглютинативны: добавляя приставки и суффиксы, можно в одном слове выразить целое предложение, чего системы перевода не учитывают.

Google подтверждает: для малообеспеченных языков качество перевода ниже. В исследованиях перед расширением Google Translate три года назад отмечено, что системы путают даже простые существительные (например, названия животных и цветов) и часто дают неправильные варианты. Компания заявляет, что «стремится обеспечивать высокое качество для всех 249 языков», особенно тщательно тестируя языки с ограниченным количеством данных.

У Википедии есть инструмент Content Translate: он автоматически переводит статьи между языками, сохраняя ссылки и форматирование. Но он использует внешние переводчики и наследует их проблемы. Каждое сообщество решает, разрешать ли его; английская Википедия практически запретила его использование, поскольку 95 % статей, созданных через Content Translate, требовали значительной доработки. В любом случае можно видеть, что инструмент использован: он оставляет специальную отметку.

Другие ИИ‑программы отслеживать сложнее. Редакторы отмечают, что как только их язык появляется в крупных переводчиках, поток плохих страниц увеличивается. Иногда пользователи честно говорят: они не владеют языком и выкладывают черновики, ожидая, что носители их исправят. Но в малых разделах часто нет активных носителей.

Юэт Ман Ли, канадский преподаватель обществоведения, рассказывал, что переводил свои англоязычные статьи на инуктитут через Google Translate и ChatGPT, думая помочь. Он отметил, что добавил примечание о черновом переводе и надеялся, что «кто-нибудь увидит и исправит», размышляя, насколько грамотно машина перевела текст. «Я не думал, что кто-то это прочтёт», — признаётся он. Но с момента публикации его статью никто не тронул.

Ли, который 10 лет редактирует английскую Википедию, говорит, что у редакторов больших разделов есть самоуверенность: они привыкли, что ошибки исправляют другие. В малые разделы никто не придёт. Он добавлял статьи на татарском, и некоторые правили носители.

Но Википедия, по его словам, — «опустошённая пустыня». «Я хотел помочь, но теперь думаю, что мог запустить рекурсивный цикл, — говорит он. — Хотелось просто выложить контент из любопытства и для развлечения, не подумав о последствиях».

Истории редакторов: страхи и разочарования

Абдулкадир Абдулкадир, 26‑летний агроном из Нигерии, ежедневно тратит по три часа на правку страниц на языке фуфульде. Он считает раздел жизненно важным: это один из немногих онлайн-ресурсов, который он советует фермерам в деревнях, чтобы узнать о семенах и культурах на родном языке. Но машинные переводы могут навредить. «Если вы дадите им неправильно переведённую статью, это может легко навредить», — говорит он. Он приводит примеры: Google Translate считает, что слово «январь» на фуфульде означает июнь, а ChatGPT переводит его как август или сентябрь. Те же сервисы предлагают, что слово «урожай» означает «лихорадка» или «самочувствие». Недавно Абдулкадир исправлял статью о коровьем горохе — важной культуре для региона, — которая была практически непонятна.

Если кто-то создаёт страницы на фуфульде, считает он, нужно переводить вручную. «Иначе читатель не получит даже базовых знаний», — говорит он другим википедистам. Он оценивает, что около 60 % статей остаются необработанными машинными переводами. «Если ничего не изменится в обучении и использовании ИИ, будущее фуфульде будет ужасным. Совсем, полностью без будущего», — признаётся он.

На другом конце Нигерии Люси Ивуала редактирует раздел на игбо, языке миллионов людей. «Вред уже нанесён», — говорит она, открывая две последние статьи: обе созданны через Content Translate, и в них столько ошибок, что, по её словам, «даже голова заболит». Некоторые слова вообще не переведены и остаются на английском; встречаются буквы, которых в игбо нет. Она узнала автора по нику: это человек, который регулярно публикует плохие переводы. Ивуала начала редактировать три года назад из опасения, что английский вытесняет её язык. Она часто объясняет на онлайн‑марафонах и в письмах, что плохой перевод отпугивает: «Человек разочаруется и уйдёт обратно в английскую “Википедию”». Для неё, профессионального переводчика между английским и игбо, это вопрос культурной идентичности: «Это моя культура, это я. Суть — не дать нас стереть».

Опасения разделяет Ноа Ха‘алилио Соломон, доцент гавайского языка из Университета Гавайев. Он оценивает, что на некоторых страницах до 35 % слов непонятны. «Если такая “гавайская речь” останется в интернете, это принесёт больше вреда, чем пользы», — говорит он. Гавайский язык долго был на грани исчезновения и только недавно начал возрождаться. Видеть плохой гавайский в крупном онлайн‑ресурсе для него болезненно, напоминает о присвоении их культуры. Лингвист Ричард Комптон из Университета Квебека говорит, что такие ошибки становятся основой для книг, продаваемых на Amazon. «Это просто чепуха», — говорит он о книге, которую видел. Он беспокоится, что молодые люди в общинах, которые боролись за сохранение языка, обратятся к ChatGPT или таким книгам и получат ответы только хуже. «Это мошенничество», — считает он.

Ответственность и закрытие разделов

По данным ЮНЕСКО, один язык исчезает каждые две недели. Но обязан ли Фонд Викимедиа отвечать за качество контента на всех языках? По словам Руна Бхаттачарьи, старшего директора фонда, ответственность лежит на сообществах: «Они должны следить, чтобы не было вандализма и нежелательной активности, будь то машинный перевод или что-то другое». Обычно разделы закрывают только при официальной жалобе. Но если нет активного сообщества, кто пожалуется и исправит?

Фонд считает, что его роль — поддерживать платформу, чтобы была возможность её возродить, если появятся желающие. «Мы предоставляем пространство для роста и развития. Этим всё и ограничивается», — говорит Бхаттачарьи. Если сообщество отсутствует, раздел может быть переведён в Инкубатор — площадку для тестирования новых языков.

На этом фоне история инари‑саамского языка в Финляндии — пример успеха. Четыре десятилетия назад носителями были четыре ребёнка. Родители создали Ассоциацию языка инари‑саами, и теперь носителей — несколько сотен; есть школы и 6400 статей в «Википедии», проверенных носителями. «Нас не волнует количество. Нам важно качество», — говорит Фабрицио Бреджароли из Ассоциации. Для них «Википедия» — репозиторий письменного языка и инструмент для молодых. Учителя просят писать статьи на разные темы — от торнадо до фольклора. Через раздел они даже вводят неологизмы: молодёжь ищет слова по спорту, политике, видеоиграм.

Этот пример показывает, что «Википедия» может помочь малым языкам, если за неё взяться всерьёз. «Главная цель — выживание инари‑саамского», — говорит Бреджароли. Он добавляет, что, возможно, даже хорошо, что нет Google Translate для их языка. Но крупные модели вроде ChatGPT уже могут переводить на языки, которых нет в традиционных системах. Бреджароли отмечает, что ChatGPT выдаёт на инари‑саамском смешанные ответы: если спросить по‑фински или английски и попросить ответить на саамском, результат лучше, но если задавать вопрос на инари‑саамском, модель смешивает финский и придумывает слова. «ChatGPT нужен просто большой объём данных. Если мы будем наполнять “Википедию” хорошими материалами, рано или поздно получим что-то полезное», — говорит он. Многие лингвисты надеются, что это поможет разорвать цикл «мусор на входе — мусор на выходе». OpenAI, которая управляет ChatGPT, не ответила на запрос MIT Technology Review о комментарии.

Закрытие гренландского раздела

Однако большинство языков не столь удачливы. Вэр, который очистил гренландскую Википедию, пытался три года привлечь носителей через медиа и соцсети, но почти не получил отклика.

«В Гренландии никому не интересно, никто не хочет участвовать. Это бессмысленно, поэтому раздел надо закрыть», — говорит он.

В конце прошлого года он начал процесс закрытия: подал заявку в Комитет по языкам. Месяцы ушли на дискуссии среди википедийных администраторов: многих удивляло, что раздел, выглядящий жизнеспособным, может быть так повреждён. В начале сентября — когда готовилась эта статья — предложение Вэра приняли: гренландский раздел закрывают, оставшиеся статьи отправляют в Инкубатор.

Сам Вэр теперь не надеется: ошибки на гренландском уже вошли в машинные переводчики. Если попросить Google Translate или ChatGPT посчитать до десяти, ни одна программа не справится. Он опасается, что этими ошибками уже заражены будущие модели.

Следите за новыми постами
Следите за новыми постами по любимым темам
208 открытий2К показов