Facebook опубликовала исходники системы распознавания речи wav2letter
Код состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Система wav2letter работает на базе сверточной нейронной сети.
Материалы, посвященные разработкам в области программного распознавания образов.
Код состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Система wav2letter работает на базе сверточной нейронной сети.
Facebook планирует сообщать пользователям о том, что кто-то разместил их фото в социальной сети. Сообщения будут приходить даже если пользователя на фото не отметили.
Cloud Video Intelligence API от компании Google вышел из беты. В дополнение к существующим функциям регистрации смены кадров и поиска объектов в пределах видеоряда, добавилась возможность транскрибирования содержимого загруженного видео.
Google постепенно расширяет коллекцию устройств линейки AIY Projects. На этот раз компания добавила Vision Kit со встроенными камерами.
Amazon запустил сервис для анализа видео. Rekognition Video работает как с загружаемыми видеофрагментами, так и в режиме онлайн с потоковым видео.
Компания Mozilla запустила систему распознавания речи на движке DeepSpeech и опубликовала базу голосовых сообщений, собранных в рамках проекта CommonVoice. В понимании речи модель приблизилась к человеку.
Отличительной чертой нового SDK является использование ИИ для распознавания текста на 63 языках.
Голосовой помощник Google теперь может заменить Shazam. Правда, пока только в США.