Google внедрила новую нейросеть Transformer для повышения точности машинного перевода

Система Transformer от Google решает проблему сохранения смысла в машинном переводе. Инженеры компании внедрили новую систему сопоставления слов.

Как оказалось, машинное обучение — очень полезная вещь в сфере онлайн-переводчиков, но у него есть несколько слабых мест. Тенденция дословного перевода является одной из них и может привести к очень серьёзным проблемам.

Сотрудник отдела обработки естественного языка Google Якоб Ужкорит объяснил природу подобной проблемы в деталях на примере перевода двух предложений на английском языке:

I arrived at the bank after crossing the street.I arrived at the bank after crossing the river.

Очевидно, «bank» означает разные объекты в каждом из предложений: в первом — финансовое учреждение, во втором — берег реки. Чтобы понять, какое именно значение имеется в виду, нужно дочитать предложение до конца, но алгоритм просто выбирает более популярный перевод слова (даже если он неправильный) и продолжает дословный перевод. Подобного сорта неоднозначности встречаются везде.

Можно попробовать полностью переписать предложение, но зачем тогда нужны онлайн-переводчики? Другой вариант — переобучить нейронную сеть. Перевод в таком случае осуществляется в два этапа. Если что-то неоднозначное встретилось во время первого прохода, то во время второго нужно попробовать исправить эту многозначность перевода.

Google же предложила свой подход к решению — так называемый механизм внимания, встроенный в систему под названием Transformer. Она сопоставляет между собой слова предложения, чтобы узнать, как именно они влияют друг на друга, меняется ли смысл каждого отдельного слова в контексте полного предложения. При переводе на другой язык механизм вновь сопоставляет каждое слово каждому, уже добавленному в предложение.

Подобную идею использует, например, компания DeepL. Интересным «побочным» эффектом Transformer является машинная логика. Так как система даёт каждому слову оценку отношения ко всем другим словам, можно наблюдать, какие именно из них она считает связанными или потенциально связанными.

Это ещё один пример неоднозначности. Слово «it» может относиться как к «animal», так и к «street», и лишь последнее слово ставит всё на свои места. Люди могут это определять с лёгкостью, но вот машинам ещё предстоит долгий путь к совершенству. А пока Google предлагает натренировать собственный переводчик с использованием написанного в компании кода.

2К открытий2К показов

Также рекомендуем

Google признал C++ устаревшим и назвал язык будущего ему на замену

На конференции Rust Nation UK представитель Google рассказал о переходе компании с C++ на Rust и том, как этот переход улучшил работу внутри компании

Алгоритмы против мошенников. Центр Big Data МТС разработал новый антифрод-сервис для маркетплейсов

МТС разработал собственный антифрод-сервис. Алгоритм умеет определять ещё на этапе авторизации надёжность пользователя.

Google Authenticator оказался небезопасным

Угроза для аутентификатора 2FA. Рассказываем, что не так с облачной синхронизацией Google Authenticator и как отреагировали в Google.

Цифровой паспорт и социальный рейтинг в России — IT новости

Рассказали о внедрении социального рейтинга в РГСУ, о цифровом паспорте от Минцифры и о закупках Astra Linux и «Мойофис» в Госдуме.