Как машины понимают речь. Часть 1

«Алиса, включи музыку», «Олег, положи 100 рублей на телефон», «Маруся, поставь мультики в детской» — сегодня одной фразы достаточно, чтобы техника сделала всё за нас. Но давно ли началось это «сегодня» и как вообще девайсы нас понимают? В первой части серии материалов «Как машины понимают речь» проследим историю этого явления.

75 открытий907 показов

«Алиса, включи музыку», «Олег, положи 100 рублей на телефон», «Маруся, поставь мультики в детской» — сегодня одной фразы достаточно, чтобы техника сделала всё за нас. Но давно ли началось это «сегодня» и как вообще девайсы нас понимают? Senior Developer Новео Андрей рассказывает о том, как устроено голосовое общение с техникой и как мы пришли к тому, что имеем сегодня.

Как все начиналось?

Идея голосового управления исполнительными устройствами появилась отнюдь не в эпоху научно-технического прогресса — напротив, желание отдавать голосовые команды неодушевленным предметам испытывали уже дальние предки, что находит свое отражение в сказках народов мира: «Сим-сим, откройся», «Горшочек, не вари!», «Свет мой, зеркальце, скажи…». Знакомые с детства фразы демонстрируют не только наличие самой идеи голосового управления, но и существование концепции протокола взаимодействия с исполнительными устройствами. Это случилось задолго до появления первых гальванических элементов, не говоря уже об электронике.

Одними из первых устройств, реализующих звуковое управление, были акустические выключатели (акустические реле). Наиболее известным их бытовым применением выступают системы управления освещением, реагирующие на характерные звуки (как правило — на хлопки). Конечно, подобные системы не управляются голосовыми командами, но в их основе лежат все те же физические принципы: в конструкции присутствует микрофон, а разница заключается лишь в способе обработки регистрируемого звукового сигнала.

Что касается распознавания речи, то эксперименты в этой области велись как минимум с середины XX века. В 1952 году Bell Telephone Laboratories (Bell Labs), исследовательское подразделение American Telephone and Telegraph Company (AT&T), представило Audrey — машину, способную «понимать» человеческую речь (она могла распознавать цифры от 0 до 9). Это стало возможным благодаря успехам в решении смежной задачи — синтеза речи, достигнутом в первой половине XX века в стенах той же Bell Labs. Как синтез речи, так и ее распознавание в те времена основывались на представлении звуков в виде формант — набора резонансных частот, создаваемых голосовыми связками человека в процессе разговора. Распознавание производилось путем сравнения формант говорящего с предварительно записанными образцами. Ожидаемо, устройство работало точнее, когда буквы называл тот человек, чей голос использовался при записи образцов.

Как машины понимают речь. Часть 1 1

В 1986 году компанией International Business Machines (IBM) была разработана печатная машинка с голосовым управлением Tangora. В основу ее работы было положено использование cкрытой модели Маркова (Hidden Markov model): устройство рассчитывало вероятность того, может ли обрабатываемый звук являться частью какого-либо из известных ему слов. Изменение подхода к распознаванию речи позволило существенно увеличить словарный запас устройства, который составил 20 тысяч слов. Функционировала машинка на базе компьютера IBM PС/AT, а для работы с новым пользователем ей требовалось 20-минутное обучение.

Как машины понимают речь. Часть 1 2

В 1987 году компания Worlds of Wonder выпустила в продажу кукол Julie. Куклы понимали 16 слов и были способны вести диалог посредством встроенного синтезатора речи. У кукол также были датчики освещенности и температуры, показания которых использовались для формирования ответных реплик, что позволяло сделать диалоги более осмысленными. Julie нужно было обучать воспринимать голос конкретного человека, как и в случае с печатными машинками Tangora.

Следует отметить существенное различие между двумя устройствами и решаемыми ими задачами. Печатная машинка Tangora представляла собой стационарное устройство с приемлемым качеством распознавания большого количества слов, а кукла Julie — наоборот. При этом, если основной задачей Tangora было преобразование речи в текст, то для работоспособности Julie такой необходимости не было. К сожалению, техническая документация на Julie отсутствует, но можно сделать предположение, что принципы ее работы не сильно отличаются от более поздних систем, обеспечивающих распознавание небольшого количества голосовых команд.

Что происходит сегодня?

Принципы работы систем распознавания речи основаны на физике звука и практически не изменились с середины XX века. В современных исследованиях звуковой сигнал представляется как последовательность числовых значений звукового давления, измеренных через равные промежутки времени. Распознавание речи сводится к разбиению этого сигнала на фрагменты, преобразованию их из временной области в частотную и сравнение ее с эталонными образцами.

Методы обработки сигнала зависят от конкретной задачи. Например, при распознавании коротких голосовых команд можно обойтись без разбиения на отрезки, если подобрать подходящую корреляционную функцию и установить минимальный порог схожести. Однако такой подход не всегда дает точные результаты. Так, в мобильном телефоне Siemens C55 упрощенный алгоритм голосового управления мог путать похожие по звучанию слова, например, «свет» и «считать».

Несмотря на кажущуюся простоту, системы голосового управления широко применяются и сегодня. Более того, существует ряд решений, представляющих собой готовые модули, с помощью которых разработчики электроники могут реализовать голосовое управления своими устройствами без дополнительных трудозатрат. В качестве примеров подобных решений — Voice Recognition Module (аналогичные модули представлены у различных производителей) и Voice Interaction Module от Yahboom Tchnology.

В задачах преобразования речи в текст наиболее эффективен подход, при котором распознавание осуществляется не по целым словам, а по слогам, с последующей корректировкой в зависимости от результатов распознавания соседних слогов. Это происходит с учетом информации о существующих словах и их возможных сочетаниях. Теоретические и практические аспекты подобного рода преобразований мы рассмотрим во второй части статьи.

Следите за новыми постами
Следите за новыми постами по любимым темам
75 открытий907 показов