Тестирование MVP и помощь людям с нарушением слуха: Валерия Семенова о стартапе My Voice
Валерия Семенова, CEO стартапа My Voice, рассказывает об инновационном устройстве, которое проложит своеобразный «мост» между глухими, слабослышащими и слышащими людьми и позволит им свободно общаться.
125 открытий3К показов
Стартап My Voice вырос из студенческой инициативы. Это устройство для перевода с жестового языка и преобразования его в устную речь. Команда проекта уверена, что их разработка поможет тысячам людей быть услышанными. Мы поговорили с Валерией Семеновой, СЕО стартапа, и узнали, что под капотом у My Voice и чем устройство отличается от аналогов.
Валерия Семенова
CEO стартапа My Voice и постоянный мотиватор
— Расскажите о вашем стартапе My Voice и идее, которая легла в его основу. Что вдохновило вас на создание этого продукта?
Все началось довольно спонтанно. Когда я училась в университете, нужно было придумать инновационную идею и защитить ее на дисциплине по технологическому предпринимательству. И вот однажды, когда ехала в автобусе, меня осенило.
Заметила человека, который общался жестами по видеосвязи на телефоне. Я поняла, что перед нами существует проблема, которую мы еще не решили в обществе. Ведь если этот человек вдруг запаникует или пропустит свою остановку, он не сможет попросить помощи у других пассажиров, потому что мы его не поймем, а он нас не услышит.
Поэтому я решила создать устройство, которое станет своеобразным «мостом» между глухими и слышащими людьми. Чтобы человек с нарушением слуха мог полноценно общаться с окружающими.
Дисциплину защитили, затем подали свою идею на грант «Умник» от Фонда содействия инновациям. Прошли заочный этап, а затем защитили проект очно в Ханты-Мансийске. Это был важный момент, который позволил нам в течение двух лет работать над проектом в рамках гранта.
Сейчас, спустя несколько лет, мы продолжаем разработку устройства, используя все чертежи, сделанные ранее.
— Каково назначение вашего устройства и как оно работает?
Это устройство не только переводит жестовый язык в обычную речь, но и обратно.
Изначально — это камера, которая в реальном времени распознает жесты. Когда неслышащий человек поднимает руку перед камерой, устройство понимает, что это определенный жест, соответствующий букве дактильного алфавита. Отдельные буквы объединяются в слова и формируются в целые фразы.
Затем синтезатор преобразует слова в звуковую речь. Таким образом, я, как собеседник, точно пойму, что мне показывают.
Но это не всё. Когда я отвечаю, устройство распознает произнесенные звуки, очищает их от шумов и отображает в виде текста на экране. Теперь собеседник может прочитать ответ, даже если не слышит его.
Интересно, что всё это происходит в реальном времени, обеспечивая комфортный диалог.
— Расскажите подробнее о вашем MVP. Какие ключевые функции и возможности устройство уже имеет?
Мы работаем над стартапом уже около 5 лет. Первые 2 года ушли на проектирование и проработку идеи, а последние 3 года мы занимались активной разработкой. И даже на самом раннем этапе смогли продемонстрировать, что можем распознавать жесты без использования сложных и громоздких устройств, только с помощью камеры.
Сейчас наша нейронная сеть, лежащая в основе распознавания, достигла впечатляющей точности в 99,5% для букв дактильного алфавита. Она не только распознает жесты, но и автоматически собирает их в слова, исправляя ошибки, и преобразует в синтезированную речь. Это ключевая функция нашего MVP.
Кроме того, мы собрали собственный датасет по русской дактильной азбуке, так как ранее подобного не существовало. Это важный шаг, который позволит нам в дальнейшем улучшать точность распознавания и расширять возможности продукта.
Сейчас же мы находимся в процессе патентования нашего решения, чтобы защитить разработку. Это только начало, и у нас большие планы. Будем добавлять новые функции, по типу распознавания более сложных жестов, возможности двустороннего перевода в реальном времени, интеграции с другими устройствами и приложениями. Наша цель — создать максимально удобное и функциональное решение для эффективного общения между глухими, слабослышащими и слышащими людьми.
— Каковы основные технические характеристики MVP, и каким образом продукт взаимодействует с пользователем? Какие сенсоры или датчики используются в устройстве?
Мы полностью полагаемся на нейронные сети и обычные камеры, без всяких дополнительных датчиков или микросхем. Достаточно даже пары мегапикселей, чтобы модель могла распознать, появилась ли в кадре рука.
Поэтому мы просим пользователя просто надеть наше маленькое устройство — своего рода «умные часы» для глухонемых людей. Внутри небольшой коробочки находится микрокомпьютер, который обрабатывает все входящие данные: видео с камеры, аудио с микрофона, и т.д.
Мы специально отказались от всех громоздких и неудобных решений, по типу перчаток с датчиками. Это было важно, потому что мы хотим, чтобы устройство было максимально легким, удобным и незаметным в повседневной жизни. Пользователь должен просто надеть его и забыть, а не постоянно ощущать и испытывать дискомфорт.
— Какие данные вы использовали для обучения нейросетевой модели? Была ли нехватка данных, и если да, то как вы решали проблему?
Для обучения нейросети использовали собранную нами базу данных. Видите ли, никто до нас не создавал датасеты по русской дактильной азбуке, поэтому пришлось самим перед камерой записывать каждый жест.
Но мы пошли дальше простого распознавания изображений. Вместо того, чтобы обучать модель на картинках жестов, мы решили использовать более простой и ресурсоэффективный подход. Представляем руку не как изображение, а как набор координат суставов. То есть, по сути, мы «нарисовали» руку точками в 2D пространстве.
Этот подход позволил значительно упростить архитектуру нейросети. Вместо сложных сверточных сетей мы используем обычные многослойные персептроны. Они гораздо легче и быстрее в вычислениях, но при этом показывают впечатляющую точность — более 99% правильного распознавания букв дактильного алфавита.
Кроме того, работа с координатами суставов дала нам дополнительное преимущество — мы смогли отказаться от гироскопов и других сложных датчиков. Теперь можем определять положение руки в пространстве, просто отслеживая изменение координат ключевых точек.
Конечно, это не значит, что мы больше не работаем над улучшением нашей модели. Постоянно пополняем и дорабатываем датасет, чтобы сделать распознавание еще более точным и надежным. Это непрерывный процесс, и мы будем продолжать совершенствовать наше решение, чтобы оно стало максимально удобным и эффективным для пользователей.
— Как вы тестировали и оценивали работу MVP? Какова точность и эффективность перевода с помощью вашей нейросети на данный момент?
Мы в первую очередь оценивали метрики самостоятельно в ходе разработки, поскольку как инженеры должны были убедиться, что все работает правильно. Наши показатели точности составили 99,5%.
Кроме того, мы сотрудничали с кафедрой сурдопедагогики Университета Герцена. Привлекали оттуда специалистов, которые работают с жестовым языком профессионально, в том числе общаются с детьми и взрослыми с нарушениями слуха. Эксперты протестировали нашу систему и подтвердили, что она распознает жесты качественно, с небольшими погрешностями — мы продолжаем их устранять. Например, внедрили дополнительную модель для очистки пропущенных или повторяющихся букв, что помогает повысить точность распознавания.
Таким образом, мы использовали как собственное тестирование, так и привлекали внешних экспертов, чтобы убедиться в высоком качестве технологии.
— Как вы производили тестирование MVP с участием пользователей из целевой аудитории? Какие важные инсайты или обратную связь вы получили в ходе тестирования?
Я могу сказать, что мы действительно столкнулись с серьезными техническими сложностями при разработке системы. Изначально ориентировались на классический жестовый язык (где задействованы две руки, наклоны и мимика), предполагая, что это будет проще распознать. Однако, как выяснилось в ходе работы с фокус-группой, жестовый язык оказался весьма диалектным: одни и те же жесты могут иметь разное значение в разных регионах или даже семьях. Это не позволяет нам собрать некий эталонный набор, а вынуждает либо переучивать пользователей, либо мириться с менее точным распознаванием.
Кроме того, отсутствие грамматических форм в жестовом языке создает дополнительные сложности при переводе в текстовые эквиваленты. Обработка коротких фраз без контекста и определение правильных форм слов, особенно с учетом сложной русской грамматики, оказывается весьма трудной задачей даже на современном уровне развития МО. Поэтому мы перешли на дактильную азбуку.
— Какие критерии вы использовали для оценки готовности MVP к тестированию и выходу на рынок? Как определили, что продукт достиг минимально необходимого функционала?
У нас было два MVP перед выходом на рынок. Первый — просто доказательство того, что такую технологию можно реализовать. А второй — то, что мы сейчас дорабатываем, но это еще не полноценное решение. Основная сложность именно в переводе жестового языка, так как остальное — распознавание речи и синтез — можно сделать через встраиваемые API, что достаточно простая задача.
Мы планируем до конца этого года полностью завершить разработку ПО, а затем начать подбирать подходящие микрокомпьютеры под требования нашего решения и тестировать аппаратную часть.
Мы определенно откроем предзаказы, но не раньше, чем протестируем первую партию устройств совместно с Всероссийским обществом глухих. Организация поможет найти добровольцев из числа неслышащих людей, чтобы мы могли получить реальную обратную связь в полевых условиях.
Очень надеемся, что удастся создать действительно востребованный продукт. Но даже если наше собственное решение не станет хитом продаж, мы точно сможем внести свой вклад в популяризацию темы перевода жестового языка и вдохновить другие команды на разработку действительно эффективных решений, которые изменят жизнь людей с нарушениями слуха.
— Расскажите о вашей команде разработчиков. Какие компетенции и экспертизу вы искали при формировании команды для создания MVP?
Как CEO проекта, я могу сказать, что формирование команды было во многом случайным. Мы с коллегами проходили курс по одной и той же дисциплине в университете, это был своего рода зачетный проект для заинтересованных ребят.
В команду вошли специалисты с разными компетенциями. Я — инженер машинного обучения, но больше выполняю роль проектировщика. Есть у нас и полноценный инженер МО, который занимается разработкой архитектуры нейросети. Также в команде присутствует человек, который отвечает за связи с общественностью, маркетинг и экономические вопросы — то есть все, что не связано напрямую с разработкой.
Сейчас мы открыли вакансию для инженера, который сможет работать с микрокомпьютерами и микросхемами, то есть того, кто соберет все воедино.
— Что вы видите в качестве основных преимуществ вашего продукта перед конкурентами?
Я очень горжусь тем, что нам удается решать проблему, с которой ранее не могли справиться другие разработки. На протяжении многих лет разные компании пытались создать устройства для перевода жестового языка, но так и не вышли на рынок.
Мы глубоко изучили все предыдущие разработки и выявили ключевые проблемы, которые мешали коллегам стать востребованными. Во-первых, большинство устройств слишком громоздкие, часто требуют использования тяжелых перчаток. Во-вторых, они ориентированы только на распознавание и перевод жестов, то есть позволяют глухому человеку высказывать свои мысли, но не дают возможности получить ответ от собеседника.
Наше устройство отличается тем, что реализует полноценный диалоговый цикл. Мы не только переводим жесты говорящего, но и отображаем ответы его собеседника, позволяя человеку с нарушением слуха свободно общаться и понимать реплики окружающих. Наш идеальный сценарий — два человека случайно встречаются на улице и легко общаются.
Так, мы создали решение, которое действительно помогает людям с нарушением слуха свободно коммуницировать в повседневной жизни, а не просто передавать отдельные фразы.
— Каковы ваши дальнейшие планы по развитию стартапа My Voice? Расскажите о вашем видении будущего этого проекта.
Наш проект — своего рода утопический план получить регистрацию устройства как медицинского оборудования. Это позволит продавать его не напрямую потребителям, а Министерству здравоохранения, которое сможет распределять его в поликлиниках. Таким образом, даже люди, находящиеся в тяжелом материальном положении, смогут получить его бесплатно.
Я считаю, что технологии, которые помогают минимизировать последствия заболеваний, должны быть доступны для всех без исключения. Поэтому наша стратегия максимум — добиться статуса медицинского устройства и работать по государственным тендерам, чтобы оно становилось доступно бесплатно по квоте. Я уверена, что это непростая, но важная цель, которую мы должны постараться достичь.
125 открытий3К показов