Топ-10 Python библиотек для Data Science
Рассказываем, на какие популярные Python библиотеки для Data Science стоит обратить внимание начинающему дата-сайентисту.
25К открытий26К показов
Изучающий data science сталкивается с огромным разнообразием возможностей. Я хочу поделиться с вами своим топом Python библиотек, которые широко используются в data science.
1. Pandas
Вы наверняка слышали, что от 70 до 80 процентов работы дата-сайентиста это исследование и подготовка данных.
Pandas в первую очередь применяется для анализа данных, это одна из самых популярных библиотек. Она предоставляет множество полезных инструментов для сбора, очистки и моделирования данных. С Pandas вы можете загружать, подготавливать, анализировать и манипулировать любыми индексированными данными. Библиотеки для машинного обучения также используют датафреймы из Pandas в качестве входных данных.
Где учить
- Туториал на Kaggle
- 75 вопросов о Pandas
- Задачи для изучения Pandas
2. NumPy
Главное преимущество NumPy — поддержка n-размерных массивов. Эти многомерные массивы в 50 раз надёжнее списков в Python. Благодаря им, NumPy очень любят дата-сайентисты.
NumPy часто используют другие библиотеки типа TensorFlow, для внутренних вычислений с тензорами. Библиотека предлагает быстрые универсальные функции для рутинных вычислений, которые сложно делать вручную. NumPy использует функции оптимизированные для работы с многомерными массивами, скорость работы которых сравнима с MATLAB.
Где учить
3. Scikit-learn
Scikit-learn, это возможно самая важная библиотека для машинного обучения на Python. После очистки и манипуляций с данными в Pandas или NumPy, Scikit-learn используется для создания моделей машинного обучения. Библиотека предоставляет множество инструментов для предиктивного моделирования и анализа.
Есть много причин использовать Scikit-learn. Например, для создания нескольких типов моделей машинного обучения, с подкреплением и без подкрепления, перекрестной проверки точности моделей и отбора важных признаков.
Где учить
4. Gradio
Gradio позволяет создавать и разворачивать веб-приложения для машинного обучения используя всего лишь несколько строк кода. Он служит тем же целям что и Streamlit, или Flask, но быстрее и проще позволяет разворачивать модели.
Основные плюсы Gradio:
- Даёт возможность дальнейшей валидации модели. Он позволяет проводить интерактивные тесты различных входных данных модели.Это хороший способ для проведения демонстраций.Легко запускать и распространять, потому что веб приложения доступны каждому по ссылке.
Где учить
5. TensorFlow
TensorFlow — это одна из самых популярных Python библиотек для создания нейронных сетей. Она использует многомерные массивы, также известные как тензоры, которые позволяют производить несколько операций на одних входных данных.
Благодаря своей многопоточной природе, он может одновременно тренировать несколько нейронных сетей и создавать высокоэффективные и масштабируемые модели.
Где учить
6. Keras
Keras в основном применяют для создания моделей глубокого обучения и нейронных сетей. Он использует TensorFlow и Theano и позволяет легко создавать нейронные сети. Из-за того, что Keras генерирует вычислительный граф на сервере, он немного медленнее других библиотек.
Где учить
7. SciPy
Отличительная черта этой библиотеки — функции, которые полезны в математике и других науках. Например: статистические функции, функции оптимизации, обработки сигналов. Для решения дифференциальных уравнений и оптимизации он включает в себя функции для нахождения численного решения интегралов. Важные сферы его применения:
- многомерная обработка изображений;
- решения преобразований Фурье и дифф. уравнений;
- благодаря оптимизированным алгоритмам, он может выполнять вычисления линейной алгебры очень эффективно и с высокой надёжностью.
8. Statsmodels
Statsmodels это отличная библиотека для хардкорной статистики. Она вобрала в себя графические возможности и функции из Matplotlib, для обработки данных использует Pandas, для R подобных формул он использует Pasty, также она использует Numpy и SciPy.
Библиотека используется для создания статистических моделей типа линейной регрессии, и проведения статистических тестов.
Где учить
9. Plotly
Plotly это мощный, легкий в использовании инструмент для создания визуализаций, который позволяет с ними взаимодействовать.
Наряду с Plotly существует Dash, который позволяет создавать динамические дэшборды, используя визуализации Plotly. Dash это веб интерфейс для Python, который избавляет от необходимости использовать Js в аналитических веб приложениях, и позволяет запускать их онлайн и офлайн.
Подробнее о визуализации данных с помощью Plotly.
Где учить
10. Seaborn
Seaborn — это эффективная Python библиотека для создания различных визуализаций в Data Science, использующая Matplotlib.
Одна из основных её особенностей это визуализация данных, которая позволяет увидеть корреляцию там, где она была не очевидна. Это позволяет дата-сайентистам лучше понимать данные.
Благодаря кастомизируемым темам и высокоуровневым интерфейсам вы можете получать настолько качественные и репрезентативные визуализации, что их в дальнейшем можно показывать клиентам.
Где учить?
25К открытий26К показов