5 неожиданных мест работы дата-сайентиста: от йоги до борьбы с deepfakes

Обложка: работа дата-сайентиста

Специалисты в области Data Science за последние пять лет стали особенно востребованными. Так, в 2019 году вакансий для них стало почти в 1,5 раза больше, чем в 2018, и почти в 10 раз больше, чем в 2015. Главные заказчики — финансовый сектор и IT-компании. Однако хорошие дата-сайентисты нужны не только в этих отраслях. Программирование, математическое моделирование и машинное обучение постепенно становятся актуальными для самых неожиданных отраслей. Основатель Zenia Yoga Алексей Куров рассказал, где ждут на работу дата-сайентистов.

Алексей Куров
Алексей Куров

Основатель и CEO Zenia Yoga

Агротех

Сельское хозяйство перестаёт ассоциироваться исключительно с плугом и лопатой: цифровые технологии проникают и в эту отрасль. В агротех ежегодно вкладывают почти 20 миллиардов долларов, хотя в России интерес к инновациям пока значительно ниже, чем за рубежом. Но сфера развивается, рождает стартапы и нуждается в IT-специалистах. В частности, в дата-сайентистах, потому что AI (искусственный интеллект) и ML (машинное обучение) в агротехе — среди ключевых современных технологий.

CV (компьютерное зрение) с глубоким обучением применяют, чтобы выполнять мониторинг сельхозкультур в режиме реального времени: искать повреждения, прогнозировать болезни. Например, компания OneSoil помогает фермерам дистанционно следить за состоянием полей, определять дату сева и фазы роста растений для правильного внесения удобрений. Или чтобы идентифицировать коров на фермах — последним занимается ирландский стартап Cainthus. А российские специалисты разработали систему, анализирующую поведение коров и оценивающую их здоровье и настроение.

В растениеводстве тоже немало работы для дата-сайентистов: изучение болезней, сорняков, почвы, проблем роста и многого другого. Всё ради повышения урожайности. Например, стартап Fermata разработал систему для выявления болезней растений в теплице, которая предотвращает потери урожая на 30% и помогает автоматизировать процессы. А Indigo Agriculture с помощью машинного обучения находит микроорганизмы, которые положительно влияют на здоровье растений. Похожий проект развивает Benson Hill Biosystems. Но здесь для улучшения урожайности изучают уже не микробы, а генетическое разнообразие растений.

Фитнес и йога

Несколько лет назад фитнес и тем более йога выглядели максимально далёкими от сложных технологий. Но в пандемию ситуация резко изменилась. Люди не просто перешли на онлайн-занятия — потому что фитнес-клубы не имели права принимать клиентов в карантин. Они стали искать способы тренироваться дома максимально эффективно. На помощь пришли цифровые сервисы — не просто наборы записанных заранее видеотренировок, а полноценные виртуальные помощники, заменяющие живого тренера.

В основе таких систем — искусственный интеллект и машинное зрение. Через камеру компьютер считывает движения человека и анализирует положение определённых точек, сравнивает с эталоном и выдаёт вердикт: правильно ли выполняется упражнение, что именно нужно скорректировать. В Zenia Yoga распознаются 22 точки на теле человека — система разработана с нуля благодаря дата-сайентистам. Подобные технологии могут применяться и в решениях для реабилитации обычных людей и спортсменов. Кроме того, цифровой тренер может подсказать, когда стоит изменить интенсивность тренировки, основываясь на показателях пульса и дыхания клиента, и корректировать программу занятий.

Появляются и умные тренажёры. В России первый такой тренажёр с искусственным интеллектом разработали в Уфе. Лечебно-диагностический комплекс получает информацию о действиях пользователя, реакциях сердца, сосудов, опорно-двигательного аппарата и даёт обратную связь. Система способна составлять индивидуальную программу, менять нагрузку, запоминать данные пациента. За рубежом в пандемию резко выросли продажи домашних установок с AI — «умных» зеркал и силовых тренажёров.

Промышленность

Цифровизация промышленности, начавшаяся несколько лет назад, для российских предприятий стала особенно значимой в пандемию. И интерес к ней продолжит усиливаться, как и будет расти роль ML на производстве. И вместе с ним — ценность работы дата-сайентистов, способных справиться с этой технологией. В частности, машинное обучение всё активнее применяется для выявления брака в деталях. Это позволяет обработать более тысячи деталей в минуту и увидеть проблемы, которые пропустит человеческий глаз из-за нехватки остроты зрения, усталости, невнимательности.

Вероятность выпуска брака благодаря машинному зрению снижается до 0,01%, в то время как в случае, когда работает человек, цифры достигают 20%. На предприятии Simatic (выпуск микроконтроллеров) при помощи платформы MindSphere удалось добиться почти абсолютного выпуска исключительно годных изделий, и объём производства возрос в 9 раз. А компания Instrumental помогает обнаруживать дефекты и ускорять производственные процессы производителям электроники из списка Fortune 100.

Кроме того, благодаря ML в промышленности можно снизить риск чрезвычайных происшествий: технология позволяет прогнозировать оставшийся срок службы авиационных двигателей и понимать точное время до их отказа, предсказывать сбои в оборудовании. Платформами, которые выполняют эти задачи, пользуются многие компании — например, Shell (энергетика), «Газпром нефть». Также машинное обучение можно использовать для анализа износа железнодорожных путей и элементов составов посредством обработки Big Data, поступающих в режиме реального времени с диагностических систем. Не менее значима и возможность оптимизировать транспортные маршруты и схемы поставки оборудования.

Защита данных

Кибербезопасность — один из ключевых приоритетов современного бизнеса практически во всех отраслях. Особенно в финансовом секторе и e-commerce. Новым направлением в числе цифровых угроз стали deepfakes: поддельный контент, где на видеоролики с различным содержанием накладываются лица и голоса известных людей. Подобный контент созда`тся с использованием ИИ (искусственного интеллекта) и нейросетей и наиболее популярен в фальшивых новостях и финансовых махинациях. По мнению аналитиков, deepfakes могли повлиять даже на ход выборов в США.

Технология активно развивается с 2016 года, когда впервые была представлена миру. Подобные видео с помощью простых медиаредакторов вроде FakeApp и Adobe After Effects (через них сделали ролик с Бараком Обамой) уже создаются «ради смеха» обычными людьми, не IT-специалистам. Это повышает риск недобросовестного использования технологии. В августе 2019 преступнику, подделавшему голос управляющего, удалось вывести из энергетической компании 220 тысяч евро.

Противостоять тому, что создано с помощью ИИ, способен только аналогичный инструмент — тоже на ИИ и усиленный блокчейном для защиты собираемых и анализируемых данных. Это также работа дата-сайентистов, для которых обучение нейронных сетей, настройка готовых ключевые задачи.

Ещё одно направление — анонимизация изображений для соответствия требованиям GDPR. Этим занимается, например, Brighter AI. Компания предоставляет инструмент для обработки фото, который либо точно находит и размывает лица, либо слегка изменяет черты так, чтобы на фото был другой человек.

Научные задачи

Широкое поле деятельности для дата-сайентистов — в сфере науки и, в частности, биотехнологий. Их уже называют новым IT. Больших данных в тандеме с искусственным интеллектом здесь скоро будет не меньше, чем в условном FinTech. Например, дата-сайентисты необходимы в сфере изучения генома, где сегодня уже достаточно знаний о молекулярных взаимодействиях и необходимо использовать больше прогностических моделей, чтобы предсказать вероятные результаты исследований. Применение компьютера здесь позволяет выполнить задачу намного быстрее и эффективнее, чем проверка всех теорий «вручную».

В целом молекулярный мир — система очень динамичная и содержащая большие объ`мы данных, которые должны подвергаться анализу и использоваться в вычислениях. Без искусственного интеллекта в исследованиях уже не обойтись: с его помощью сейчас совершаются прорывы в науке. Например, нейронная сеть AlphaFold с помощью машинного обучения значительно продвинула сложную задачу protein folding — предсказания структуры белков, над которой очень давно работали учёные. Это важно для создания новых лекарств путём разработки белка-фермента с заданными свойствами. А в компании Insilico с помощью искусственного интеллекта нашли новую молекулярную мишень и новое лекарство от фиброза лёгких, сократив временные и финансовые затраты в десятки раз.