Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11

5000 строк усталости: представлен open-source датасет о выгорании и продуктивности разработчиков

Новости

Впечатляющий объем данных

2К открытий6К показов
5000 строк усталости: представлен open-source датасет о выгорании и продуктивности разработчиков

Компания Syncora.ai выложила в открытый доступ первый крупный синтетический датасет, посвящённый поведенческим паттернам и выгоранию разработчиков.

Он имитирует работу программистов, использующих ИИ-инструменты, и может стать основой для обучения моделей, прогнозирующих продуктивность и эмоциональное выгорание.

Что это за датасет?

Набор данных содержит 5000 записей, каждая из которых представляет один день из жизни разработчика: сколько времени ушло на фокусную работу, сколько было встреч, сколько строк кода и коммитов сделано, каков был уровень стресса, применялись ли практики парного программирования — и какой результат дня в виде финального «productivity score».

Все данные синтетические, то есть сгенерированы искусственно, но приближены к реалистичным шаблонам поведения с помощью движка Syncora.ai. Это значит, что можно свободно использовать их для анализа без риска утечки персональных данных и нарушений приватности.

Как устроены данные?

Вот некоторые метрики, которые есть в таблице:

  • focus_hours — часы глубокой фокусной работы (0–8)
  • meetings_per_day — количество встреч (0–6)
  • lines_of_code — количество написанного кода (до 1000 строк в день)
  • debugging_time — часы, потраченные на отладку (0–5)
  • reported_burnout — субъективный уровень выгорания (0 — нет, 1 — высокий)
  • tech_stack_complexity — оценка сложности используемых технологий (1–10)
  • productivity_score — итоговая продуктивность дня (0–100)

Полный набор включает 10 признаков, которые можно использовать для аналитики, визуализаций и машинного обучения.

Зачем это нужно?

  • Обучение моделей, предсказывающих продуктивность разработчика по поведению.
  • Построение классификаторов выгорания на ранних этапах.
  • Анализ влияния встреч и отвлечений на результативность.
  • Сбор экспериментальных дашбордов для HR-аналитики.
  • Практика признаковой инженерии без использования чувствительных данных.

Данные особенно актуальны для компаний, которые тестируют ИИ-инструменты в разработке, строят внутренние дашборды для командной аналитики или работают над продуктами в области благополучия сотрудников.

Почему это важно?

Тема выгорания в ИТ продолжает набирать актуальность. Но реальные данные — слишком чувствительная зона для анализа: они часто привязаны к конкретным людям, задачам и командам.

Синтетические данные снимают эти риски и позволяют тестировать гипотезы, строить модели и проверять идеи без юридических и этических ограничений.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий6К показов