Google опубликовала первую статью из цикла, доступно объясняющего пользу машинного обучения

классификации

Компания Google задалась вопросом объяснения концептов машинного обучения на примерах повседневных проблем и способах их решения с применением алгоритмов машинного обучения. Первая из серии статей была опубликована в блоге разработчиков облачных технологий компании и посвящена классификации входящих электронных писем.

Подход 1: работаем ручками

Самое очевидное решение — ручная сортировка писем с просмотром каждого из них и определением темы, адресата, отправителя и тому подобного.

Плюсы и минусы

Этот подход не нуждается в специальных инженерных навыках и является самым точным из всех. С другой стороны, он не является масштабируемым и требует большого объёма ручной работы.

Подход 2: поиск по ключевому слову

Можно автоматизировать процесс, создав алгоритм сортировки входящей корреспонденции по ключевому слову. Для этого создаётся список таких слов, чаще всего используемых в темах писем. В случае деловых писем список может состоять из следующих типов — письмо-запрос, письмо-предложение (оферта), письмо-претензия (рекламация) и многие другие.

Плюсы и минусы

Использование этого подхода решает проблему масштабируемости, требует небольшого опыта написания алгоритмов, но он является ненадёжным. Есть несколько способов улучшить метод, например, составление списка ключевых слов, основываясь на частоте их использования в прошлом (некий аналог обучения).

Подход 3: использование машинного обучения

Этот метод является самым продвинутым и полностью автоматизированным. Он включает в себя заранее проведённую маркировку каждого уже доставленного письма по соответствующим категориям. Для обучения модели Google предлагает использовать свой сервис Cloud Natural Language API. Обученная модель классифицирует каждое новое письмо и отправляет его в соответствующую очередь. Если решение модели оказалось ложным, пользователь может переопределить категорию письма и направить его в правильную очередь. Модель принимает это во внимание и улучшает качество предсказания с каждой новой итерацией подобного цикла.

Плюсы и минусы

Этот подход не только улушает масштабируемость, но также устраняет необходимость составления списка ключевых слов. Несмотря на факт изначально проведённой классификации всех имеющихся писем и непосредственного участия человека в этом процессе, остальные действия модель делает в автоматическом режиме.

В ближайшем будущем Google обещает привести ещё больше жизненных примеров использования машинного обучения. А пока даёт вам возможность написать собственный классификатор писем на основе своего кода. Мы же советуем попробовать силы в классификации целого текста.

Источник: блог Google Cloud Platform