Разработан алгоритм, который умеет определять твиты, сделанные в нетрезвом состоянии

Публично вещать о своем пьянстве — не лучший способ хорошо зарекомендовать себя в социальных сетях, но, тем не менее, немногие могут устоять перед соблазном похвастаться своими алкогольными авантюрами. А теперь исследователи из нью-йоркского университета Рочестера решили объединить Twitter и машинное обучение, чтобы понаблюдать за употреблением алкоголя в Нью-Йорке. Их алгоритм умеет не только вычислять связанные с алкоголем твиты, но и даже определять, был ли пьян их автор в момент набора поста.

Чтобы сделать это, исследователь Набиль Хоссейн и его команда собрали тысячи сообщений с геотегами в Нью-Йорке с июля 2013 года по июль 2014, а затем отфильтровали их, выделяя все сообщения, в которых содержатся определенные ключевые слова (от «пивного бочонка» до «в стельку»).

Затем отобранные посты были исследованы людьми. Каждый твит прошел через трех человек, которые исследовали его по трем критериям:

  • Есть ли какие-то отсылки к употреблению алкоголя?
  • Если да, то есть ли упоминания о том, что пил сам автор твита?
  • Если да, то какова вероятность, что твит отправлен прямо из места употребления и в то же время?

Ответы были использованы, чтобы обучить три разных алгоритма — «линейных опорных вектора» — отвечать на один вопрос на каждого. Процент успеха — количество ответов, которые совпали с мнением живых людей — составил около 80-90 процентов для каждого из вопросов.

Слова, влияющие на результаты ответа на первый вопрос: «Есть ли какие-то отсылки к употреблению алкоголя?»

Слова, влияющие на результаты ответа на первый вопрос: «Есть ли какие-то отсылки к употреблению алкоголя?»

После этого команда попыталась отгадать, где именно находились пьянствующие авторы твитов — у себя дома или где-то еще. Для этого был составлен целый список слов, которые явно указывают на то, что человек находится у себя дома: «ванна», «диван», «TV», «сон», «домой» и другие — по которому снова были отфильтрованы все посты. Опять же, сначала этим занялись люди, на основе ответов которых и проводилось обучение алгоритма. Так был создан еще один алгоритм, который с точностью около 80% определял, дома ли находится автор твита.

Так удалось составить статистику того, где чаще всего употребляют алкоголь жители Нью-Йорка. Выяснилось, что большинство жителей города пьют дома или совсем недалеко от него — вероятно, это объясняется тем, что бары в Нью-Йорке есть почти в каждом квартале. Жители пригорода же пьют обычно вдалеке от дома.

Конечно, нельзя сказать, что Twitter способен предоставить репрезентативные данные — основная его аудитория обычно молода и зачастую принадлежит к разного рода меньшинствам. Тем не менее, по словам главы исследования, «будущая работа будет нацелена на комплексное исследование — демографических данных и других характеристик. Мы сможем исследовать социальную сеть, чтобы проверить, как социальное взаимодействие и давление со стороны сверстников в социальных медиа влияют на тенденцию ссылаться на употребление алкоголя».

Источник: arstechnica