Обложка: Идеи проектов машинного обучения для начинающих

Идеи проектов машинного обучения для начинающих

В 2021 году навыки машинного обучения остаются важными. Если вы новичок, необходимо работать над проектами, которые помогут прокачать навыки. Предлагаем несколько идей для портфолио. А ещё советуем посмотреть нашу подборку готовых датасетов.

Система музыкальных рекомендаций

Цель этого проекта машинного обучения — рекомендовать пользователям музыку, опираясь на поиск и старые треки, как делает, например Spotify. В какой-то мере, компьютер должен думать примерно, как человек, чтобы выдать релевантный результат. Для этого полезно полагаться на методы машинного обучения и нейронных сетей.

Системы музыкальных рекомендаций бывают нескольких типов. Контент-ориентированные берут за основу прошлый выбор пользователя. Коллаборативные предсказывают песни, основанные на том, что ранее слушали другие люди с похожим вкусом. Гибридные используют оба типа данных. Независимо от типа для обучения системы понадобится датасет. Например, Million Songs, содержащий информацию о разных музыкальных жанрах.

Кстати, потом по такому же принципу можно создать софт, который будет рекомендовать фильмы, сериалы, товары, мероприятия и так далее.

Система прогнозирования продаж

Цель — прогнозировать продажи для каждого отдела в каждой торговой точке. Оно нужно, чтобы помочь компании принимать более эффективные решения для оптимизации каналов и планирования запасов. Для тренировки можно использовать датасеты Walmart, которые содержат данные о продажах 98 продуктов в 45 торговых точках. В них есть информация о каждом магазине, в каждом отделе и на каждый день недели. А также — данные об акциях и скидках, которые влияют на продажи и которые тоже стоит принимать во внимание.

Система прогнозирования цен на жильё

Цель — спрогнозировать стоимость нового дома, на основе данных о ценах на жильё и фактах о доме: пощади, расположении, инфраструктуре и так далее. Чтобы начать, можете использовать датасет Boston House Prices. Он небольшой, но включает достаточно данных для первого проекта машинного обучения. В нём есть информация о ценах на дома Бостона, возрасте владельцев, уровне преступности в районе и так далее — всего 14 показателей.

Анализатор настроений

Имея при себе систему, которая могла бы анализировать настроения, стоящие по текстам и постам, организации могли бы куда точнее понимать поведение потребителей. Это позволило бы им улучшить обслуживание клиентов.

Социальные платформы, например Twitter, Facebook, YouTube и Reddit, генерируют огромное количество данных. Так, используя датасет Twitter, можно получить содержимое твитов, а также информацию о хэштегах, ретвитах, местоположении, пользователя — словом, обо всём, что можно использовать для обучения системы. С ним можно понять, о чём сейчас говорит мир и как относится к актуальным событиям и модным трендам. Работа с таким датасетом разобраться с интеллектуальным анализом данных в соцсетях и классификаторах.

Анализатор активности

Этот проект машинного обучения направлен на построение модели, которая может точно распознавать физическую активность человека. Цель в том, чтобы классифицировать деятельность по одной из шести категорий, которые будет распознавать смартфон. Эти категории: ходьба, бег, подъём и спуск по ступенькам, сидение, стояние и лежание.

Например, здесь датасет содержит информацию об активности 30 людей — её получили с помощью смартфона, оснащённого специальными трекерами.

Система распознавания рукописного ввода

Прежде чем переходить к глубокому обучению, можно создать проект на основе простого датасета, например MNIST. Он предназначен для обучения машин распознаванию рукописных цифр и подойдёт для новичков, которым пока трудно работать с графическими данными.

В этом проекте будем использовать сверточные нейронные сети и датасет< wbr>MNIST. В нём 60 тысяч обучающих изображений рукописных цифр от нуля до девяти и 10 тысяч изображений для тестирования. При этом он достаточно лёгкий, чтобы поместиться в памяти компьютера.

Система распознавания объектов

Обнаружение объектов — метод компьютерного зрения, который позволяет идентифицировать и находить объекты на изображении или видео. Его можно использовать для подсчёта объектов в сцене и отслеживания их точного расположения. Так, система подойдёт для наблюдения за футбольным мячом или подсчёта машин на дороге.

В разработке проекта помогут глубокие нейронные сети (DNNs). В ходе работы придётся создать модель, способную классифицировать объекты и точно локализовать объекты разных классов.