Написать пост

Google внедрила новую нейросеть Transformer для повышения точности машинного перевода

Аватар Вячеслав Шарунов

Система Transformer от Google решает проблему сохранения смысла в машинном переводе. Инженеры компании внедрили новую систему сопоставления слов.

Как оказалось, машинное обучение — очень полезная вещь в сфере онлайн-переводчиков, но у него есть несколько слабых мест. Тенденция дословного перевода является одной из них и может привести к очень серьёзным проблемам.

Сотрудник отдела обработки естественного языка Google Якоб Ужкорит объяснил природу подобной проблемы в деталях на примере перевода двух предложений на английском языке:

I arrived at the bank after crossing the street.I arrived at the bank after crossing the river.

Очевидно, «bank» означает разные объекты в каждом из предложений: в первом — финансовое учреждение, во втором — берег реки. Чтобы понять, какое именно значение имеется в виду, нужно дочитать предложение до конца, но алгоритм просто выбирает более популярный перевод слова (даже если он неправильный) и продолжает дословный перевод. Подобного сорта неоднозначности встречаются везде.

Можно попробовать полностью переписать предложение, но зачем тогда нужны онлайн-переводчики? Другой вариант — переобучить нейронную сеть. Перевод в таком случае осуществляется в два этапа. Если что-то неоднозначное встретилось во время первого прохода, то во время второго нужно попробовать исправить эту многозначность перевода.

Google же предложила свой подход к решению — так называемый механизм внимания, встроенный в систему под названием Transformer. Она сопоставляет между собой слова предложения, чтобы узнать, как именно они влияют друг на друга, меняется ли смысл каждого отдельного слова в контексте полного предложения. При переводе на другой язык механизм вновь сопоставляет каждое слово каждому, уже добавленному в предложение.

Подобную идею использует, например, компания DeepL. Интересным «побочным» эффектом Transformer является машинная логика. Так как система даёт каждому слову оценку отношения ко всем другим словам, можно наблюдать, какие именно из них она считает связанными или потенциально связанными.

Это ещё один пример неоднозначности. Слово «it» может относиться как к «animal», так и к «street», и лишь последнее слово ставит всё на свои места. Люди могут это определять с лёгкостью, но вот машинам ещё предстоит долгий путь к совершенству. А пока Google предлагает натренировать собственный переводчик с использованием написанного в компании кода.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий2К показов