Сара Робинсон, член команды Google Cloud, провела анализ комментариев на популярной площадке Stack Overflow. Целью исследования было выявление наиболее и наименее доброжелательно настроенных сообществ программистов.
И как она это сделала?
Для выявления позитивных комментариев Сара искала комментарии, содержащие следующие слова и фразы: «thank you», «thanks», «awesome» и «:)». Вот BigQuery-запрос:
#standardSQL
SELECT
tag,
ROUND((COUNT(case when comment_text like '%thanks%' or comment_text like '%:)%' or comment_text like '%thank you%' or comment_text like '%awesome%' then 1 end) / COUNT(*)) * 100,2) as percent_happy,
COUNT(*) total_comments
FROM (
SELECT
LOWER(a.text) as comment_text,
SPLIT(b.tags, '|') as tags
FROM `bigquery-public-data.stackoverflow.comments` a
JOIN `bigquery-public-data.stackoverflow.posts_questions` b
ON a.post_id = b.id
UNION ALL
SELECT
LOWER(b.text) as comment_text,
SPLIT(c.tags, '|') as tags
FROM `bigquery-public-data.stackoverflow.posts_answers` a
JOIN (
SELECT post_id, text FROM `bigquery-public-data.stackoverflow.comments`
) b
ON a.id = b.post_id
JOIN `bigquery-public-data.stackoverflow.posts_questions` c
ON c.id = a.parent_id
), UNNEST(tags) tag
GROUP BY 1
HAVING total_comments > 500000
ORDER BY percent_happy DESC
А вот результат:
Выяснилось, что программисты, пишущие на R и Rust, а так же веб- и iOS-разработчики являются самыми доброжелательными и счастливыми программистами.
Ну а как же негативные комментарии?
Для поиска отрицательно окрашенных комментариев использовался тот же запрос, но ключевыми словами и фразами являлись следующие: «wrong», «horrible», «stupid», or «:(«. Результаты — на скриншоте ниже:
Очевидно, больше всего отрицательных комментариев оставляют в обсуждениях о Си и производных от него языках.
Не всё так плохо, как кажется
Хотя Интернет и представляется многим достаточно негостеприимным местом, на каждый отрицательный комментарий набралось почти 6 положительных 🙂
Источник: Hackernoon