Лучшие датасеты для машинного обучения и анализа данных

Аватар Никита Прияцелюк

Для машинного обучения (и не только) требуется много хороших данных. Вместо того чтобы собирать их самому, можно воспользоваться готовыми датасетами.

Обложка поста Лучшие датасеты для машинного обучения и анализа данных

Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:

Где искать датасеты

  • UCI Machine Learning Repository. Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
  • VisualData. Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
  • Find Datasets | CMU Libraries. Коллекция датасетов, предоставленная университетом Карнеги Меллон.

Датасеты общего назначения

Государственные датасеты

  • Data.gov. Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
  • Food Environment Atlas. Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
  • School system finances. Данные о финансах школьных систем в США.
  • Chronic disease data. Данные о показателях хронических заболеваний на территории США.
  • The US National Center for Education Statistics. Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
  • The UK Data Service. Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
  • Data USA. Исчерпывающая визуализация общедоступных данных США.

Данные о жилье

  • Boston Housing Dataset. Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.

Экономика и финансы

  • Quandl. Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
  • World Bank Open Data. Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
  • IMF Data. Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
  • Financial Times Market Data. Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
  • Google Trends. Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
  • American Economic Association (AEA). Хороший источник данных о макроэкономике США.

Датасеты для машинного обучения

Компьютерное зрение

  • xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme. Большой датасет аннотированных изображений.
  • ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome. Датасет с ~100 тыс. подробно аннотированных изображений.
  • Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.

Анализ тональности текста

  • Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
  • IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
  • Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
  • Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
  • Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.

Обработка естественного языка

  • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • Enron Dataset. Данные электронной почты от высшего руководства Enron.
  • Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
  • Google Books Ngrams. Коллекция слов из Google Книги.
  • Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
  • Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
  • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
  • Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
  • Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
  • Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
  • SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
  • Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
  • UCI’s Spambase. Большой датасет спам-писем.

Автопилоты

  • Berkeley DeepDrive BDD100k. На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
  • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
  • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
  • Oxford’s Robotic Car. Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
  • Cityscape Dataset. Большой датасет, содержащий записи ста уличных сцен в 50 городах.
  • KUL Belgium Traffic Sign Dataset. Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
  • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
  • Bosch Small Traffic Light Dataset. Датасет с 24 000 аннотированных светофоров.
  • LaRa Traffic Light Recognition. Ещё один датасет для распознавания светофоров.
  • WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.

Медицинские данные

  • MIMIC-III. Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.
Машинное обучение
Data Science
102081