{"blocks":[{"type":"expertLegacy","data":{"id":"1217"}},{"type":"paragraph","data":{"text":"Область Data Science сейчас популярна и есть везде — от прогнозирования спроса продуктов в магазине до управления автономными автомобилями. Понятие это обширное и включает в себя математику, статистику, программирование и машинное обучение. Специалисты в этой области анализируют большие объемы данных для нахождения взаимосвязей и построения прогнозов."}},{"type":"paragraph","data":{"text":"Что же необходимо знать по минимуму для такой работы? Вообще, все нижеприведенные навыки можно изучить на курсах Coursera или найти курсы на множестве других платформ, например, есть мини-курсы на Kaggle. А по основам программирования есть хороший курс CS50 на русском от университета Harvard."}},{"type":"header2","data":{"level":2,"text":"Python"}},{"type":"paragraph","data":{"text":"Курс на Coursera"}},{"type":"paragraph","data":{"text":"Очень популярный сейчас и доступный в обучении язык программирования. Необходимо знать основы языка, функции, структуры данных, классы (ООП). Также понадобится Jupyter Notebook и Git. Дополнительные библиотеки можно установить относительно быстро и легко (трудности могут возникнуть для самых последних версий Python)."}},{"type":"header2","data":{"level":2,"text":"Numpy/Scipy"}},{"type":"paragraph","data":{"text":"Курс на Coursera"}},{"type":"paragraph","data":{"text":"Необходимо знать основы этих библиотек и изучать глубже при необходимости."}},{"type":"paragraph","data":{"text":"Если нужно работать с разреженными таблицами, использовать векторизированный подход, или нужно быстродействие при вычислении больших массивов, то функции из Numpy подойдут лучше всего. Правда иногда применение Numpy/Scipy требует преобразования данных в собственные типы массивов (ndarray). Многие библиотеки Python для Data Science зависят от Numpy (например, Sklearn). Часто в работе удобно использовать встроенные в Numpy математические функции, т.к. они хорошо оптимизированы для численных вычислений с матрицами."}},{"type":"header2","data":{"level":2,"text":"Pandas"}},{"type":"paragraph","data":{"text":"Курс на Kaggle"}},{"type":"paragraph","data":{"text":"Библиотека Pandas нужна всегда, потому что данные нужно прочитать и обработать. Pandas — это мощный и легкий в использовании инструмент с открытым исходным кодом. Также с помощью Pandas можно делать сложные запросы из нескольких таблиц (файлов/баз данных), чтобы создать новую нужного вида — для дальнейшего обучения модели или для визуализации. Часто Pandas используется для начальной обработки данных, математических и статистических вычислений."}},{"type":"paragraph","data":{"text":"Почти в каждой компании есть базы данных, и если вам нужно получать данные напрямую из SQL базы, то пригодится знание основ SQL-запросов, которые можно выполнять из Python-скрипта."}},{"type":"image","data":{"file":{"id":143416,"url":"https://media.tproger.ru/uploads/2021/01/Izobrazhenie-7.jpeg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":626,"height":255,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2021/01/Izobrazhenie-7.jpeg","alt":"Базовые знания Data Science: что и где нужно изучить новичку 1","dimensions":{"width":626,"height":255},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/hPKRSWzEYvMK94HuKLDMPmG2U4Drlt5aOKTipfwhXZQ/rs:fill:626:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":626},{"url":"https://tproger.ru/signed_image/ckxx2sZs6-SbONL1Mf59QhrJfcxlTKKPfx4zt7SA9y0/rs:fill:1252:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":1252},{"url":"https://tproger.ru/signed_image/hPKRSWzEYvMK94HuKLDMPmG2U4Drlt5aOKTipfwhXZQ/rs:fill:626:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":626},{"url":"https://tproger.ru/signed_image/ckxx2sZs6-SbONL1Mf59QhrJfcxlTKKPfx4zt7SA9y0/rs:fill:1252:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":1252},{"url":"https://tproger.ru/signed_image/hPKRSWzEYvMK94HuKLDMPmG2U4Drlt5aOKTipfwhXZQ/rs:fill:626:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":626},{"url":"https://tproger.ru/signed_image/ckxx2sZs6-SbONL1Mf59QhrJfcxlTKKPfx4zt7SA9y0/rs:fill:1252:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":1252},{"url":"https://tproger.ru/signed_image/ucci7S9bB-sHaR2jsNo3ooyAULSdV4mf_l1SLoJAGAI/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/wxKIYj1NhjtKf1_p8zOSzskJgohSqUDl7gDMk0tqAqY/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNy5qcGVn","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"626px"},{"media":"(min-width: 1281px)","size":"626px"},{"media":"(min-width: 1281px)","size":"626px"},{"media":"(min-width: 961px)","size":"626px"},{"media":"(min-width: 671px)","size":"626px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"header2","data":{"level":2,"text":"Matplotlib/Seaborn"}},{"type":"paragraph","data":{"text":"Курс на Kaggle"}},{"type":"paragraph","data":{"text":"Ну и, конечно, куда же без визуализации данных! Для этого широко используют Matplotlib, чтобы строить любые типы графиков. Matplotlib полезен для своих собственных графиков, которые получаются в процессе вычислений. Если нужно построить график из уже готовых данных и не хочется настраивать стиль отображения в 10-20 строк, то можно воспользоваться Seaborn и сделать то же самое за 1-2 строки и уже настроенным стилем. Наглядный график может помочь в решении проблемы или в обсуждении с заказчиками."}},{"type":"image","data":{"file":{"id":143415,"url":"https://media.tproger.ru/uploads/2021/01/Izobrazhenie-6.jpeg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":424,"height":424,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2021/01/Izobrazhenie-6.jpeg","alt":"Базовые знания Data Science: что и где нужно изучить новичку 2","dimensions":{"width":424,"height":424},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/kOQwlCN8OVC4cAsmyx_VD48GTpjC_M8T34tsf_1s0pU/rs:fill:424:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":424},{"url":"https://tproger.ru/signed_image/duWtE8m4HZ6AtEgTacna8buk9x2AgVVuyfT8pZU6UK0/rs:fill:848:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":848},{"url":"https://tproger.ru/signed_image/kOQwlCN8OVC4cAsmyx_VD48GTpjC_M8T34tsf_1s0pU/rs:fill:424:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":424},{"url":"https://tproger.ru/signed_image/duWtE8m4HZ6AtEgTacna8buk9x2AgVVuyfT8pZU6UK0/rs:fill:848:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":848},{"url":"https://tproger.ru/signed_image/kOQwlCN8OVC4cAsmyx_VD48GTpjC_M8T34tsf_1s0pU/rs:fill:424:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":424},{"url":"https://tproger.ru/signed_image/duWtE8m4HZ6AtEgTacna8buk9x2AgVVuyfT8pZU6UK0/rs:fill:848:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":848},{"url":"https://tproger.ru/signed_image/kOQwlCN8OVC4cAsmyx_VD48GTpjC_M8T34tsf_1s0pU/rs:fill:424:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":424},{"url":"https://tproger.ru/signed_image/duWtE8m4HZ6AtEgTacna8buk9x2AgVVuyfT8pZU6UK0/rs:fill:848:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMS8wMS9Jem9icmF6aGVuaWUtNi5qcGVn","dpr":1,"width":848}],"sizes":[{"media":"(min-width: 1441px)","size":"424px"},{"media":"(min-width: 1281px)","size":"424px"},{"media":"(min-width: 1281px)","size":"424px"},{"media":"(min-width: 961px)","size":"424px"},{"media":"(min-width: 671px)","size":"424px"},{"media":"(min-width: 500px)","size":"424px"}]}}}},{"type":"header2","data":{"level":2,"text":"Sklearn"}},{"type":"paragraph","data":{"text":"Курс на Coursera"}},{"type":"paragraph","data":{"text":"Для создания аналитических моделей потребуется знание традиционных алгоритмов машинного обучения (ML): линейная и логистическая регрессии, дерево принятия решений, кластеризация."}},{"type":"paragraph","data":{"text":"Пожалуй, самая популярная ML-библиотека для Python – это scikit-learn (sklearn). Документация очень подробная и наглядная, всё API в библиотеке относительно простое и удобное в использовании. Например, чтобы обучить модель, используем clf.fit(X, y), затем предсказать — clf.predict(y_test). Также можно использовать Pipeline для повторного использования всех шагов обработки данных. Можно даже использовать элементы из deep learning (искусственные нейронные сети) — Multi-layer Perceptron (MLP)."}},{"type":"header2","data":{"level":2,"text":"Заключение"}},{"type":"paragraph","data":{"text":"Минимум знаний необходим на начальном этапе, но дальше все будет сложнее и нужно получать новые знания или углублять имеющиеся в конкретной области. Также полезно будет пройти курс по алгоритмам, т.к. на собеседованиях, соревнованиях и иногда в работе они пригодятся."}}]}

Ошибка в настройках сайта