Написать пост

Google AI представила первый алгоритм для прямого перевода устной речи с одного языка на другой

Аватар Екатерина Никитина

Translatotron сохраняет при переводе особенности исходной фразы: интонацию, паузы. Но по качеству пока уступает классическим алгоритмам.

Исследователи из Google AI создали алгоритм Translatotron, который переводит устную речь с одного языка на другой. При этом он не использует текстовую расшифровку, как классические алгоритмы.

Зачем нужен новый алгоритм?

Затем, что он умеет кое-что, чего не умеют предшественники. Обычно перевод устной речи строится так:

  • устная фраза переводится в текст;
  • текст переводится на другой язык;
  • текст на другом языке переводится в устную фразу.

Поскольку исходная и конечная фразы напрямую не связаны, теряются очень важные составляющие речи: интонация и паузы. Новый алгоритм сохраняет при переводе звуковые особенности оригинала.

Как он это делает?

Translatotron работает со спектрограммами. Алгоритм состоит из трёх модулей:

  • первый принимает исходную спектрограмму и формирует её версию «на другом языке»;
  • второй синтезирует из полученной спектрограммы речь;
  • третий при необходимости помогает имитировать оригинальный голос.

По качеству Translatotron уступает классическим решениям. Но, как говорит Google AI, он первый и пока единственный в своём роде. Раньше учёные исследовали саму возможность прямого перевода, поэтому использовали набор данных из ста слов. Translatotron обучали на полноценных языковых корпусах.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий2К показов