Интеллектуальный анализ текстов South Park

Программист провёл интеллектуальный анализ реплик героев South Park и выявил наиболее характерные фразы для для каждого из них.

Набор из порядка 70 тысяч строк диалогов мультсериала по 18 сезонам был взял из репозитория Боба Адамса (Bob Adams). Затем из него были выделены уникальные реплики и распределены по персонажам, получилось порядка 1000 различных слов и фраз. Далее была произведена отсечка по 29 наиболее «говорящим» героям (Картман стал лидером).

К этим данным был применён математический аппарат для выяснения наиболее характерных реплик по персонажам. Напомним, наиболее частые и характерные — не одно и то же. Подробности этого шага можно найти в оригинальной статье.

southpark_ranked_plot

Исходный код скрипта на языке R и данные для анализа можно найти на GitHub.

Типичный программист