Ученые предложили новый «тест Тьюринга» — отличать ИИ от человека по хамству
Новости
Концептуальненько
277 открытий3К показов
Группа исследователей из университетов Цюриха, Амстердама, Дьюка и Нью-Йорка выяснила: даже самые продвинутые языковые модели легко отличить от людей по чрезмерной вежливости.
В новой работе они предложили «компьютерный тест Тьюринга», который позволяет определять ИИ не по содержанию сообщений, а по отсутствию токсичности и спонтанных эмоций.
Слишком вежлив, чтобы быть человеком
Ученые проверили 9 крупных языковых моделей, включая Mistral 7B, Qwen 2.5 и Gemma 3, заставив их отвечать на реальные посты из Twitter/X, Reddit и Bluesky.
В результате, все модели писали слишком дружелюбно и аккуратно, тогда как живые пользователи чаще проявляли сарказм, раздражение и неформальность.
Автоматические классификаторы смогли распознать ИИ-ответы с точностью до 80%, даже после попыток оптимизации. Главный показатель — низкий уровень токсичности. Модели элементарно не умеют естественно «хамить» или спорить, как реальные люди в интернете.
Вежливость — враг реализма
Интересно, что обученные на специальных инструкциях модели оказались хуже в имитации человека, чем их «сырые» версии. Чем больше модель старалась быть полезной и корректной, тем легче было понять, что перед вами не человек.
Более того, увеличение размера модели не помогло — 70-миллиардная Llama 3.1 обманывала алгоритмы хуже, чем маленькие версии на 8 млрд параметров.
Новый «тест Тьюринга»
Ученые называют метод computational Turing test — это автоматизированный способ измерить «человечность» текста.
Иронично, что ИИ пока не научился вести себя по-человечески именно потому, что люди не всегда ведут себя корректно и красиво. Живой язык в интернете — это сарказм, агрессия, скука и противоречия.
А значит, чтобы пройти новый «тест Тьюринга», машинам, возможно, тоже придется научиться хамить.
277 открытий3К показов



