Нейросети научились переводить текст без словаря

Нейросети помогут сделать редкие языки более доступными.

Благодаря нейросетям технологии машинного перевода продвинулись далеко вперед. Однако принципы машинного обучения требуют огромного количества информации, миллионов одних и тех же текстов на разных языках, что не всегда доступно. Science проанализировал две новые работы в области машинного перевода, демонстрирующие другой способ обучения.

Машинный перевод без учителя

Большинство программ машинного обучения требуют реакции от человека. Компьютер предлагает вариант, получает правильный ответ и соответственно этому корректирует работу.

Такой принцип работает при обучении распространенным языкам, к примеру, переводу между английским и французским, поскольку существует множество документов, составленных на обоих языках. Однако совсем по-другому дело обстоит с обучением редким языкам, для которых не так легко найти достаточный массив параллельных текстов.

Поэтому существует другой способ обучения, который исключает вмешательство человека. Анализируя разные тексты на двух языках, система сама создает двуязычный словарь, причем ей никто не указывает, правильный это перевод или нет. Дело в том, что принципы, по которым слова собираются в группы, в разных языках очень похожи. К примеру, слова, обозначающие «стол» и «стул», часто используются в связке во всех языках.

Поэтому, если система создаст для языка структуру наподобие дорожного атласа, на котором вместо городов обозначены слова, то такие карты для разных языков будут похожи друг на друга, различаясь только названиями пунктов. Каким способом лучше всего наложить одну карту на другую, система способна выяснить сама — и вот уже готов двуязычный словарь.

Стратегии машинного обучения для перевода

В новых работах, описывающих удивительно похожий метод, системы тоже могут переводить с одного языка на другой на уровне предложений. Обе используют такие стратегии обучения, как обратный перевод и шумоподавление.

В обратном переводе предложение на одном языке приблизительно переводится на другой, а потом обратно на язык источника. Если предложение, полученное обратным переводом, не идентично первоначальному, то нейросеть корректирует работу так, чтобы в следующий раз они были больше похожи друг на друга.

Метод шумоподавления похож на обратный перевод, однако вместо двойного перегона предложения туда и обратно он добавляет в предложение «шум» — вносит или убирает некоторые слова и затем пытается построить перевод на исходном языке.

Используемые в связке, эти стратегии помогут нейросетям глубже проникнуть в структуру языка.

Результаты

В переводе набора из примерно 30 миллионов предложений между английским и французским обе новые системы получили по 15 баллов в обоих направлениях по оценке BLEU (bilingual evaluation understudy). Это не так много, если сравнивать с показателем Google Translate, использующим привычный алгоритм обучения нейросетей, — около 40 баллов, а люди и вовсе могут получить больше 50, но все же это лучше, чем дословный перевод.

Авторы уверены, что есть простой способ улучшить эти системы — сделать их наполовину контролируемыми, то есть, вначале передать несколько тысяч параллельных текстов и затем предоставить системе возможность обучаться самостоятельно.

3К открытий3К показов

Также рекомендуем

OpenAI регистрирует торговую марку GPT-5

OpenAI подала заявку на регистрацию товарного знака GPT-5. Релиз новой версии GPT ожидают в декабре 2023 года.

YandexGPT научилась писать тексты и форматировать их

Нейросеть YandexGPT (YaLM 2.0) научилась создавать тексты, и процесс написания текстов можно видеть в режиме реального времени.

Вышло приложение ChatGPT для iOS

OpenAI запустила официальное приложение ChatGPT для iOS. Приложение использует ту же версию GPT, что и веб-версия.

Как создать приложение с нейросетью на базе LLM Alpaca: быстро и просто

Как быстро и просто создать приложение, основанное на языковой модели LLM Alpaca. Она похожа на ChatGPT и обучена на огромном объеме данных.