Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant

Аватарка пользователя Рафаил Агазода

Confiant проанализировали утёкший исходный код Яндекса и заявил, что сервис собирает данные о привычках, семье и соседях пользователей.

В январе 2023 года случилась крупная утечка исходного кода Яндекса. Тогда специалисты по информационной безопасности обнаружили, что сервисы создают приоритетные группы пользователей, а Яндекс Станция может включать микрофон без ведома владельца.

10 августа в Лас-Вегасе прошла конференция Black Hat USA 2023, в ходе которой с докладом выступила Кейли МакКри из команды Confiant. Доклад содержит новую информацию о том, какие данные якобы собирает Яндекс о своих пользователях. Мы перевели основные тезисы из этого доклада.

Важно отметить, что эта статья — пересказ чужого доклада, истинность которого мы не можем подтвердить.

Какие сервисы Яндекса были проанализированы

В числе сервисов, исходный код которых был слит, оказались Метрика и Крипта. Метрика — это сервис для анализа аудитории веб-сайтов, а Крипта — это технология поведенческой аналитики.

Также командой Confiant были изучены AppMetrica, служба аналитики приложений и веб-аналитики Яндекса, и Audiences, которая позволяет извлекать данные из нескольких источников для создания целевых сегментов аудитории.

Исходный код написан на Python и C++. Также в архивах содержатся данные YQL — аналог SQL от Яндекса. При этом утечка не содержала репозиториев git, по которым можно было бы отслеживать изменения в коде, зато включала в себя выходные файлы Jupyter Notebook, по которым удалось установить, что именно делает код.

Данные, которые собирает Метрика

Данные AppMetrica включают в себя информацию из мобильного SDK и Яндекс Метрики. В Confiant утверждают, что они могут быть неанонимными.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 1

Анализ Confiant показал, что личные данные, которые собирает сервис, в итоге хэшируются. Они при этом всё равно остаются достаточно уникальными: если сервис будет продолжать собирать данные о пользователях, для идентификации пользователя нужно будет только хэшировать любые входящие идентификаторы и посмотреть, совпадают ли выходные данные.

Такой подход, заявили Confiant, теоретически анонимен, но пользователя всё равно можно легко установить.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 2

В Confiant рассказали, что AppMetrica собирает внушительное количество данных о местоположении пользователя. Среди них: широта местоположения, долгота, высота над уровнем моря, направление движения, скорость передвижения.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 3

Иными словами, если вы летите в самолёте, AppMetrica сможет определить, где, куда, как быстро и высоко вы летите.

Также Метрика собирает данные о том, в какой возрастной категории вы находитесь и какого вы пола. Это — вполне стандартные данные.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 4

Данные, которые собирает Крипта

Крипта — это служба поведенческой аналитики Яндекса, которая составляет узкие сегменты целевой аудитории для показа таргетированной рекламы.

Вот несколько сегментов, которые Confiant якобы нашли в Крипте:

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 5

Можно заметить, что здесь есть класс «Курильщики». По словам Confiant, он определяет, покупает ли пользователь средства для курения вроде табака или электронных сигарет.

Класс «Дачники» анализирует по геолокации, выезжают ли пользователи за город и как часто.

Класс «Путешественники» показывает, выезжает ли человек из своего региона, который был установлен Криптой, и определяет поездку как внутреннюю или международную. Также он анализирует, есть ли у пользователя посадочные талоны, билеты на самолет или подтверждения отеля.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 6

Кроме того, Крипта якобы собирает информацию о домах и его обитателях. К примеру, на скриншоте ниже видно, что в домоводстве проживают мужчина, женщина, пожилой человек и ребенок.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 7

Ещё данные в Крипте показывают, на какие электронные адреса пользователь логинился, через какие сети и в какой точке мира. Всё это, заявили Confiant, привязано к Яндекс ID.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 8

Данные о месте проживания пользователя собираются и предположительно наносятся на географическую карту. После этого они сопоставляются с данными других пользователей Яндекса, чтобы установить, являются ли они соседями.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 9

Ещё в Confiant заключили, что Крипта собирает биометрические данные, в числе которых — анализ голоса через умную колонку Алиса, который нужен, чтобы установить, пользуется ли Алисой ребёнок.

Это верное решение, так как колонка может предоставить ребенку информацию, которую ему не нужно знать в силу возраста. Однако эти данные не остаются в приложении Алисы, а используются Криптой.

Здесь же можно увидеть, что Крипта якобы собирает данные о дне рождения пользователя.

Яндекс собирает данные пользователей вплоть до привычек и соседей — Confiant 10

Заключение

Confiant уверяет, что SDK AppMetrica предоставляет Яндексу огромный набор информации о пользователях. Тревожным исследователи также называют и то, что хэширование в сервисах происходит непоследовательно, а используемые идентификаторы позволяют легко установить пользователя.

Вот набор данных, который собирают сервисы Метрика и Крипта по версии Confiant:

  • Фамилия, имя и отчество;
  • Дата рождения;
  • Сети, через которые подключается пользователь;
  • Его местонахождение;
  • Привычки пользователя;
  • Его социальный статус — работа и заработок;
  • Семейный статус;
  • Информация о составе семьи;
  • Информация о возможных соседях;
  • Идентификатор устройства пользователя;
  • Передвижения пользователя в стране и за её пределами.

Яндекс никак не комментировал доклад на момент публикации статьи.

Яндекс
Утечка данных
Персональные данные
1601