Google AI представила первый алгоритм для прямого перевода устной речи с одного языка на другой

Исследователи из Google AI создали алгоритм Translatotron, который переводит устную речь с одного языка на другой. При этом он не использует текстовую расшифровку, как классические алгоритмы.

Зачем нужен новый алгоритм?

Затем, что он умеет кое-что, чего не умеют предшественники. Обычно перевод устной речи строится так:

  • устная фраза переводится в текст;
  • текст переводится на другой язык;
  • текст на другом языке переводится в устную фразу.

Поскольку исходная и конечная фразы напрямую не связаны, теряются очень важные составляющие речи: интонация и паузы. Новый алгоритм сохраняет при переводе звуковые особенности оригинала.

Как он это делает?

Translatotron работает со спектрограммами. Алгоритм состоит из трёх модулей:

  • первый принимает исходную спектрограмму и формирует её версию «на другом языке»;
  • второй синтезирует из полученной спектрограммы речь;
  • третий при необходимости помогает имитировать оригинальный голос.

По качеству Translatotron уступает классическим решениям. Но, как говорит Google AI, он первый и пока единственный в своём роде. Раньше учёные исследовали саму возможность прямого перевода, поэтому использовали набор данных из ста слов. Translatotron обучали на полноценных языковых корпусах.

Source: N+1

Как Яндекс использует ваши данные и машинное обучение для персонализации сервисов — читать и смотреть YaC 2019.