Лучшие датасеты для машинного обучения и анализа данных

Обложка поста

Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:

Где искать датасеты

  • UCI Machine Learning Repository. Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
  • VisualData. Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
  • Find Datasets | CMU Libraries. Коллекция датасетов, предоставленная университетом Карнеги Меллон.

Датасеты общего назначения

Государственные датасеты

  • Data.gov. Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
  • Food Environment Atlas. Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
  • School system finances. Данные о финансах школьных систем в США.
  • Chronic disease data. Данные о показателях хронических заболеваний на территории США.
  • The US National Center for Education Statistics. Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
  • The UK Data Service. Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
  • Data USA. Исчерпывающая визуализация общедоступных данных США.

Данные о жилье

  • Boston Housing Dataset. Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.

Экономика и финансы

  • Quandl. Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
  • World Bank Open Data. Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
  • IMF Data. Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
  • Financial Times Market Data. Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
  • Google Trends. Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
  • American Economic Association (AEA). Хороший источник данных о макроэкономике США.

Датасеты для машинного обучения

Компьютерное зрение

  • xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
  • Labelme. Большой датасет аннотированных изображений.
  • ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
  • LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
  • MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
  • COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
  • Visual Genome. Датасет с ~100 тыс. подробно аннотированных изображений.
  • Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
  • Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
  • Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
  • Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.

Анализ тональности текста

  • Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
  • IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
  • Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
  • Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
  • Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.

Обработка естественного языка

  • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
  • Enron Dataset. Данные электронной почты от высшего руководства Enron.
  • Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
  • Google Books Ngrams. Коллекция слов из Google Книги.
  • Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
  • Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
  • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
  • Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
  • Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
  • Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
  • SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
  • Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
  • UCI’s Spambase. Большой датасет спам-писем.

Автопилоты

  • Berkeley DeepDrive BDD100k. На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
  • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
  • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
  • Oxford’s Robotic Car. Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
  • Cityscape Dataset. Большой датасет, содержащий записи ста уличных сцен в 50 городах.
  • KUL Belgium Traffic Sign Dataset. Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
  • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
  • Bosch Small Traffic Light Dataset. Датасет с 24 000 аннотированных светофоров.
  • LaRa Traffic Light Recognition. Ещё один датасет для распознавания светофоров.
  • WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.

Медицинские данные

  • MIMIC-III. Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.

Перевод статьи «The Best Public Datasets for Machine Learning and Data Science»