Лучшие датасеты для машинного обучения и анализа данных
Для машинного обучения (и не только) требуется много хороших данных. Вместо того чтобы собирать их самому, можно воспользоваться готовыми датасетами.
110К открытий117К показов
Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:
- Где искать датасеты
- Государственные датасеты
- Данные о жилье
- Экономика и финансы
- Компьютерное зрение
- Анализ тональности
- Обработка естественного языка
- Автопилоты
- Медицинские данные
Где искать датасеты
- Google Dataset Search. Dataset Search позволяет по ключевому слову искать датасеты по всей Сети.
- Kaggle. Площадка для соревнований по машинному обучению с множеством интересных датасетов. В списке датасетов можно найти разные нишевые экземпляры — от оценок рамена до баскетбольных данных NCAA и базы лицензий на домашних животных в Сиэтле.
- UCI Machine Learning Repository. Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
- VisualData. Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
- Find Datasets | CMU Libraries. Коллекция датасетов, предоставленная университетом Карнеги Меллон.
Датасеты общего назначения
Государственные датасеты
- Data.gov. Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
- Food Environment Atlas. Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
- School system finances. Данные о финансах школьных систем в США.
- Chronic disease data. Данные о показателях хронических заболеваний на территории США.
- The US National Center for Education Statistics. Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
- The UK Data Service. Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
- Data USA. Исчерпывающая визуализация общедоступных данных США.
Данные о жилье
- Boston Housing Dataset. Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.
Экономика и финансы
- Quandl. Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
- World Bank Open Data. Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
- IMF Data. Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
- Financial Times Market Data. Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
- Google Trends. Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
- American Economic Association (AEA). Хороший источник данных о макроэкономике США.
Датасеты для машинного обучения
Компьютерное зрение
- xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
- Labelme. Большой датасет аннотированных изображений.
- ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
- LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
- MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.
- COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.
- Visual Genome. Датасет с ~100 тыс. подробно аннотированных изображений.
- Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
- Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
- Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.
- Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
Анализ тональности текста
- Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.
- IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
- Stanford Sentiment Treebank. Стэнфордский датасет для анализа тональности.
- Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.
- Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
Обработка естественного языка
- HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
- Enron Dataset. Данные электронной почты от высшего руководства Enron.
- Amazon Reviews. Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
- Google Books Ngrams. Коллекция слов из Google Книги.
- Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
- Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
- Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг».
- Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
- Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
- Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.
- SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.
- Yelp Reviews. Датасет от Yelp, содержащий более 5 млн отзывов.
- UCI’s Spambase. Большой датасет спам-писем.
Автопилоты
- Berkeley DeepDrive BDD100k. На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
- Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
- Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
- Oxford’s Robotic Car. Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
- Cityscape Dataset. Большой датасет, содержащий записи ста уличных сцен в 50 городах.
- KUL Belgium Traffic Sign Dataset. Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
- LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
- Bosch Small Traffic Light Dataset. Датасет с 24 000 аннотированных светофоров.
- LaRa Traffic Light Recognition. Ещё один датасет для распознавания светофоров.
- WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.
Медицинские данные
- MIMIC-III. Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.
110К открытий117К показов