Логотип компании МТС
МТС

Где точно не стоит использовать ChatGPT

Разбираем минусы и проблемы ChatGPT. А также рассказываем, в каких сферах с ней пока не получится работать.

3996

ChatGPT последние месяцы на пике популярности. О нём говорят и пишут, его тестируют в разных ситуациях и пытаются внедрить в продукты — для решения серьёзных задач или ради развлечения. Но действительно ли он так полезен разработчику? И насколько эффективно помогает с повседневными и не очень задачами? Разберём в статье.

Почему ChatGPT оказался так популярен

ChatGPT — продукт на основе языковой модели GPT-4, разработанной OpenAI. До 2022 года специалисты, работающие с нейросетями, были хорошо знакомы с предыдущей версией этого алгоритма, GPT-3, и использовали его для различных задач.

Что так отличает ChatGPT от своих предшественников и делает его таким популярным:

  • У ChatGPT интуитивно понятный и удобный интерфейс, позволяющий пользоваться продуктом без особых технических навыков.
  • Алгоритмы обучения GPT-3,5 и 4 хитрее, чем у предыдущих поколений. Фундаментального прорыва — как даже между GPT-2 и 3, — конечно, нет. Но объём данных, на которых обучали модель, вырос, появилась возможность работы с кодом и инструкциями.
  • В архитектуру ChatGPT добавили RLHF — Reinforcement Learning на основе человеческого фидбэка. Благодаря этому модель может выбирать из нескольких вариантов ответа тот, что с наибольшей вероятностью подойдёт и будет хорошо воспринят конкретным пользователем, основываясь на предыдущих коммуникациях с ним.
Многие видели, как искусственный интеллект играет в компьютерные игры. Это как раз реализуется с помощью Reinforcement Learning, когда модели показывается целевая метрика, например, счёт в игре, и инструменты, которыми она может пользоваться, чтобы менять этот счёт (например, кнопки движения персонажа в игре). Задача алгоритма в таком случае — ситуативно находить решения, которые позволят максимизировать результат.

Насколько серьёзно можно относиться к модели?

На мой взгляд, ChatGPT — в том виде, в каком он существует сейчас — только игрушка, цель которой — привлечь внимание людей и показать им, на что сегодня способен искусственный интеллект. У системы есть свои минусы:

  • Модель не может обучаться в real time, а данные загружены вплоть до 2021 года. Поэтому, даже если спросить у версии с GPT-3,5 под капотом, что лучше: ChatGPT-3,5 или GPT-4, — модель скажет, что GPT-4 ещё не существует.
  • Модель плохо работает, когда нужен конкретный ответ: назвать исторический факт, найти литературный источник, решить математическую задачу. 
  • Модель не понимает устоявшиеся выражения, жаргонизмы и иронию.

Поэтому в реальной работе продукт лучше не использовать, постараюсь доказать на примерах.

ChatGPT и бизнес-процессы

Внедрить систему в бизнес-процесс, который требует точности и эффективности — а для корпораций ещё и прозрачности и безотказности — практически невозможно. Потому что модель размещена на сервере где-то в Америке. И никто не может гарантировать, что завтра её не отключат, что она не будет виснуть и так далее.

Кроме того, ответы на запросы всегда нужно проверять — что не всегда реально. Например, мы активно используем рекламные SMS-рассылки. И если подключить к ним ChatGPT, клиентам будут приходить случайные сообщения, которые могут не только не отвечать интересам пользователя, но и вовсе не иметь смысла.

В идеале модель стоило бы дообучить на основе русскоязычной базы данных, «обложить» другой моделью, которая будет прогнозировать CTR этих SMS. Но у нас нет этой возможности, потому что нет доступа к исходному коду.

Microsoft активно использует GPT-3,5 и 4 для своих сервисов, но при этом дообучают их. Так что модели open source такого типа реально применять в процессах, если есть исходный код, который можно доработать под свои задачи.

ChatGPT и службы поддержки

В теории большие языковые модели можно использовать в call-центрах — но их опять же нужно обучить на релевантных данных. Без доработок и объединения с другими системами это сделать невозможно. Модель — такая как ChatGPT — будет только прогнозировать наиболее вероятное следующее слово в ответе. И снова выдаст абракадабру. 

Альтернативный вариант — использовать GPT-like модель только для «очеловечивания» поисковой выдачи (поиск может осуществляться, например, с помощью knowledge graphs, не менее захватывающей технологии), чтобы точный результат был облечён в удобочитаемую форму.

ChatGPT и разработка

Один из разработчиков в моей команде пробовал использовать ChatGPT для простых задач и рассказал об опыте.

Действительно, система может сгенерировать код. Но гарантий того, что она напишет его без багов, нет. Причём баги будут спрятаны довольно глубоко, потому что для обучения использовали базу StackOverfow, где в основном запросы типа «У меня не работает этот код, баги не вижу, что случилось?».

Так что, по большому счёту, ChatGPT за секунду генерирует код, который нужно дебажить несколько часов.

Правильный ответ: s.reset_index(level=[0,1],drop=True)

То есть вместо pandas.DataSeies.drop(), который дропает данные, нужно использовать pandas.DataSeies.reset_index(), который работает с индексами.

На GitHub есть целая коллекция косячного кода, который генерирует система: https://github.com/giuven95/chatgpt-failures.

Что в итоге

По сути, все примеры успешного использования ChatGPT в бизнесе — или просто задачах разработчика — случайность, либо так называемые cherry picking. Человек раз за разом прогоняет одно и то же через модель, пока не получит приемлемый результат и показывает только его. И неизвестно, сколько времени на это тратит.

Кроме того, все якобы сэкономленные ресурсы уходят на то, чтобы поправить ответ. Для определённого бизнеса, например, создания иллюстраций, такой подход может быть нормальным. Но точно не для разработки, когда после генерации кода приходится часами отлавливать баги.

Есть ли у таких продуктов перспектива стать полезными в будущем? Да, причём в ближайшем.

Но на мой взгляд, ChatGPT сейчас — Jack of all trades, master of none.

Следите за новыми постами по любимым темам

Подпишитесь на интересующие вас теги, чтобы следить за новыми постами и быть в курсе событий.

Инструменты
Нейронные сети
Искусственный интеллект
3996
Что думаете?
4 комментария
Сначала интересные
Аватар пользователя Aleksandrit OWHS
Вроде и директор по Big Data в МТС, но статья невероятно слабая, из-за попытки рассмотреть сетку как готового многофункционального сотрудника, а не как помощника, который экономит кучу времени.
1. Данных до 2021 года вполне хватает для покрытия подавляющего большинства человеческих знаний, для чего чат и используют
2. исторический факт - запрос в гугл и на популярные исторические факты будет сразу же информация
найти литературный источник - опять же запрос в гугл, либо источник должен быть англоязычным
решить математическую задачу - там ограничения на текущий момент, в 4рку добавят Wolfram Alfa будет решение и математических, и физических, и химических задач.
3. 
3.1 На английском большую часть понимает
3.2 А почему должна понимать? Она создана не для прохождения теста Тьюринга, поэтому требовать различать иронию и пр. не имеет смысла
Кстати, примеры, как раз, показывают чери-пикинг, а слабые стороны никак нельзя назвать критичными
ChatGPT и бизнес-процессы.
Заголовок под которым пример на смсках, серьёзно? Я возможно чего-то не понимаю, но блин можно иметь в компании одного человека, который будет отвечать за текст смсок. А пример бизнес-процесса который можно спокойно поручить нейросетке: генерация идей для добавления нового функционала/расширение старого, генерация диз дока и пр. Очевидно, что за нейросеткой нужно будет допиливать некоторые моменты, но времени экономит кучу.
ChatGPT и разработка. Вот опять же пример чери-пикинга, потому что задача редко встречается и кода по ней не так уж и много (хотя казалось бы питон). У меня же опыт следующий: при грамотно составленном тз для сетки и популярной области (Java в моём случае) сетка вполне достойно справляется с: рефакторингом, генерацией филлерного кода и анализом путей решения задач, да,  при генерации готового решения могут быть огрехи или неточности, но это опять же могут, а не постоянно. Для выявления таких косяков нужен человек с компетенцией, что очевидно. Тот же Faang (по их заявлениям) добился отличной оптимизации: в некоторых проектах, для создания которых нужно было около 100 разрабов, теперь нужно 2.


Аватар пользователя VL
Согласен, волна хайпа поднята благодаря тому, что при обучении gpt, разработчики сделали основной упор на языках программирования и коде, но явно это не указали. Намекая что это прорыв и он теперь может все! Потом "случайно" акценты сместили на результатах его проверки не врачами, не геологами, не строителями и тд, а работникам IT сферы, программистами. Ну и основная проблема всех нейросетей: для обучения нужно  >5 000 примеров с  правильными ответами и понятными предикторами. Но в большинстве профессий такой роскоши нет. Например в инвестпроектах (особенно крупных, уникальных) ретроспективный анализ почти невозможен, т.к. подобных случаев (примеров) ещё не было или условия среды сильно поменялись. Плюс "чёрные лебеди", которых Гаусово распределение вообще учесть не может. Плюс, нейросети не могут обобщать, извлекая из миллиона частных случаев формулу/закон у них всегда вероятность <1, а человек может из эмпирических данных получать универсальную формулу. При этом, конечно, за гибридами нейросетей будущее, но в связке с человеком.
Аватар пользователя Илья Чичак
почти уверен, что автор придумал диалоги из примеров. прогнал вопросы про мамонтов, сов и разницу между 3.5 и 4 версиями - ответы и версии 3.5 и 4 были нормальными
Показать все комментарии