5000 строк усталости: представлен open-source датасет о выгорании и продуктивности разработчиков
Новости
Впечатляющий объем данных
2К открытий6К показов
Компания Syncora.ai выложила в открытый доступ первый крупный синтетический датасет, посвящённый поведенческим паттернам и выгоранию разработчиков.
Он имитирует работу программистов, использующих ИИ-инструменты, и может стать основой для обучения моделей, прогнозирующих продуктивность и эмоциональное выгорание.
Что это за датасет?
Набор данных содержит 5000 записей, каждая из которых представляет один день из жизни разработчика: сколько времени ушло на фокусную работу, сколько было встреч, сколько строк кода и коммитов сделано, каков был уровень стресса, применялись ли практики парного программирования — и какой результат дня в виде финального «productivity score».
Все данные синтетические, то есть сгенерированы искусственно, но приближены к реалистичным шаблонам поведения с помощью движка Syncora.ai. Это значит, что можно свободно использовать их для анализа без риска утечки персональных данных и нарушений приватности.
Как устроены данные?
Вот некоторые метрики, которые есть в таблице:
focus_hours— часы глубокой фокусной работы (0–8)meetings_per_day— количество встреч (0–6)lines_of_code— количество написанного кода (до 1000 строк в день)debugging_time— часы, потраченные на отладку (0–5)reported_burnout— субъективный уровень выгорания (0 — нет, 1 — высокий)tech_stack_complexity— оценка сложности используемых технологий (1–10)productivity_score— итоговая продуктивность дня (0–100)
Полный набор включает 10 признаков, которые можно использовать для аналитики, визуализаций и машинного обучения.
Зачем это нужно?
- Обучение моделей, предсказывающих продуктивность разработчика по поведению.
- Построение классификаторов выгорания на ранних этапах.
- Анализ влияния встреч и отвлечений на результативность.
- Сбор экспериментальных дашбордов для HR-аналитики.
- Практика признаковой инженерии без использования чувствительных данных.
Данные особенно актуальны для компаний, которые тестируют ИИ-инструменты в разработке, строят внутренние дашборды для командной аналитики или работают над продуктами в области благополучия сотрудников.
Почему это важно?
Тема выгорания в ИТ продолжает набирать актуальность. Но реальные данные — слишком чувствительная зона для анализа: они часто привязаны к конкретным людям, задачам и командам.
Синтетические данные снимают эти риски и позволяют тестировать гипотезы, строить модели и проверять идеи без юридических и этических ограничений.
2К открытий6К показов



