{"blocks":[{"type":"paragraph","data":{"text":"Как сообщает Google, разработка системы преобразования текста в естественно звучащую речь — одна из основных исследовательских целей компании. Новейшее изобретение в этой области — Tacotron 2 — справляется с этой задачей проще и эффективнее своих предшественников Tacotron и WaveNet."}},{"type":"header3","data":{"level":3,"text":"Старые проблемы"}},{"type":"paragraph","data":{"text":"Предыдущие системы генерации речи обладали рядом существенных недостатков. WaveNet, к примеру, издавала очень резкие, режущие слух звуки. И хотя преобразование текста выполнялось алгоритмом весьма эффективно, для успешной работы ему требовалось огромное количество метаданных о языке, начиная с произношения и заканчивая специфическими языковыми особенностями. Tacotron же лучше справлялся с воспроизведением высокоуровневых особенностей языка (вроде интонации или просодии), но на выходе не мог выдавать полноценный «речевой продукт»."}},{"type":"header3","data":{"level":3,"text":"Главные достоинства"}},{"type":"paragraph","data":{"text":"Tacotron 2 создан с учетом ошибок предыдущих систем. В нем соединены их успешные функции, «приправленные» упрощенной системой сбора данных для обучения."}},{"type":"paragraph","data":{"text":"Для вычисления лингвистических правил алгоритму необходим сам текст и его озвучка. Печатная версия конвертируется в специальную Tacotron-спектрограмму, в которой распределяются ритм и ударения, а слова уже генерируются в системе а-ля WaveNet."}},{"type":"image","data":{"file":{"id":58622,"url":"https://media.tproger.ru/uploads/2017/12/text-into-speech.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":956,"height":539,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2017/12/text-into-speech.jpg","alt":"Google представила Tacotron 2, новую систему для преобразования текста в речь 1","dimensions":{"width":956,"height":539},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/JnFgWQAmscK-lZv400OuU3-RSkZAvFyD23PSyXMrSs0/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/gpK0nXYABDRSyJTftNR1D9tIURM8D5DWQje3pKwFoBE/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/X2cMFSCrk5yoclZVIV80-Bv6Hn5P4KKQ7GyeOtutzk4/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/S3-4A1HcwV2yISgJBtWM66UYDuFoX3nQD870E-tCInk/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/F9Q0i9nslSrvDHXRDn0TLh24_2DoyTbT9Sjk6UwaUd8/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/MidcrzVa_qSmgiM7yd68Oa7MAGlHfpQKS4JJOwwCUII/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/CA0r89NLKebze3Fs0sXasaUpk7zV6O3rKIME94IvDvA/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/7os4NCPtQfFWpkr3_QBGKoG5YnI7CI2UQIcZ2Ht5TUE/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8xMi90ZXh0LWludG8tc3BlZWNoLmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"header3","data":{"level":3,"text":"Что же вышло?"}},{"type":"paragraph","data":{"text":"Выходная аудиозапись в действительности очень похожа на речь живого человека (правда, англоговорящие слушатели утверждают, что некоторые слова система выговаривает достаточно ломано). Темп речи звучит весьма убедительно, а основные запинки происходят на словах с «не-интуитивным» произношением. Иногда ударения делаются не на тот слог, а словарные/заимствованные слова система зачитывает буквально по буквам. «Иногда она даже случайно генерирует странные звуки,» — пишут исследователи."}},{"type":"paragraph","data":{"text":"Одной из основных проблем нового алгоритма является отсутствие регулировки тона речи. Нельзя предугадать, какая фраза будет произнесена весело и оптимистично, а какая — грубо или самоуверенно. Однако это вполне компенсируется возможностью настройки других языковых тонкостей (например, акцентов)."}},{"type":"paragraph","data":{"text":"Стоит отметить, что в этой области у Google есть серьезные конкуренты. Например, в мае 2017 года компания Baidu представила систему для перевода текста в речь, различающую и воспроизводящую сотни акцентов."}}]}

Ошибка в настройках сайта