{"blocks":[{"type":"paragraph","data":{"text":"Мало кто может предсказывать события до ста процентов верно. Но дата-сайнтисты научились. А мы нашли последние тренды Data Science и составили план для тех, кто хочет глубоко изучить эту область."}},{"type":"header2","data":{"level":2,"text":"Выбор языка"}},{"type":"paragraph","data":{"text":"Сейчас в науке о данных используются два основных языка: Python и R. Язык R применяется для сложных финансовых анализов и научных исследований, потому его глубокое изучение можно отложить на потом."}},{"type":"paragraph","data":{"text":"На начальном этапе можно остановиться на изучении основ:"}},{"type":"list","data":{"items":["нюансы работы RStudio;","библиотеки Rcmdr, rattle и Deducer;","типы данных контейнеров, векторы и первичные типы данных;","factors, структуры и матрицы."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Быстро разобраться в теории языка R поможет сайт Quick-R."}},{"type":"paragraph","data":{"text":"Python популярен больше: на нём проще научиться писать код и для него написано множество пакетов визуализации данных, машинного обучения, обработки естественного языка и сложного анализа данных."}},{"type":"paragraph","data":{"text":"Что важно освоить в Python:"}},{"type":"list","data":{"items":["функции, классы, объекты;","структуры данных;","базовые алгоритмы и библиотеки;","качественную отладку и тестирование кода;","Jupyter Notebook;","Git."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Чтобы освоить базовые понятия Python, у вас уйдёт примерно 4-6 недель при условии, что вы будете тратить на изучение 2-3 часа в день."}},{"type":"header2","data":{"level":2,"text":"Библиотеки для Python"}},{"type":"header3","data":{"level":3,"text":"NumPy"}},{"type":"paragraph","data":{"text":"NumPy — библиотека научных вычислений. От неё зависит почти каждый пакет Python для Data Science или Machine Learning: SciPy (Scientific Python), Matplotlib, Scikit-learn."}},{"type":"paragraph","data":{"text":"NumPy помогает выполнять математические и логические операции: например, в ней содержатся полезные функции для n-массивов и матриц. А ещё библиотека поддерживает многомерные массивы и высокоуровневые математические функции для работы с ними."}},{"id":"a54f23b1-8aa2-4aba-85c2-413cac3bc0e2","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Зачем нужно знать математику? Почему компьютер не может сам всё посчитать?"}},{"type":"paragraph","data":{"text":"Часто методы машинного обучения используют матрицы для хранения и обработки входных данных. Матрицы, векторные пространства и линейные уравнения — всё это линейная алгебра."}},{"type":"paragraph","data":{"text":"Чтобы понимать, как работают методы машинного обучения, нужно хорошо знать математику. Поэтому будет лучше пройти весь курс алгебры целиком: самостоятельно или с наставниками."}},{"type":"paragraph","data":{"text":"Кроме того, математика и математический анализ важны для оптимизации процессов. Зная их, проще улучшать быстроту и точность работы моделей машинного обучения."}},{"type":"paragraph","data":{"text":"Что важно освоить:"}},{"type":"list","data":{"items":["основу линейной алгебры: линейные комбинации, зависимость и независимость, векторные точки и векторное произведение, матричные преобразования, матричное умножение,","обратные функции;","массивы;","обработку математических выражений и статических данных;
визуализации через Matplotlib, Seaborn или Plotly."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Где можно подтянуть знания по NumPy: официальная документация."}},{"type":"paragraph","data":{"text":"Где можно подтянуть знания по алгебре: Calculus (глава 11)."}},{"type":"header3","data":{"level":3,"text":"Pandas"}},{"type":"paragraph","data":{"text":"Pandas — библиотека с открытым исходным кодом, построенная на NumPy. Она позволяет выполнять быстрый анализ, очистку и подготовку данных. Такой своеобразный Excel для Python.
Библиотека хорошо умеет работать с данными из разных источников: листов Excel, файлов CSV, SQL, веб-страниц."}},{"type":"paragraph","data":{"text":"Что важно освоить:"}},{"type":"list","data":{"items":["чтение и запись множества различных форматов данных;","выбор подмножеств данных;","поиск и заполнение недостающих данных;","применение операций к независимым группам в данных;","преобразование данных в разные формы;","объединение нескольких наборов данных вместе;","расширенную функциональность временных рядов."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Где можно подтянуть знания по Pandas: Pydata."}},{"type":"header2","data":{"level":2,"text":"Базы данных и сбор информации"}},{"type":"paragraph","data":{"text":"Если вы уже знакомы с Python, Pandas и NumPy, можете приступать к изучению работы с базами данных и парсингу информации."}},{"type":"header3","data":{"level":3,"text":"SQL"}},{"type":"paragraph","data":{"text":"Несмотря на то, что NoSQL и Hadoop уже пустили корни в науку о данных, важно уметь писать и выполнять сложные запросы на SQL."}},{"id":"de0d7d13-85b8-4e6a-b42e-dd2f4a8eb27d","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Часто необработанные данные — от электронных медицинских карт до истории транзакций клиентов — находятся в организованных коллекциях таблиц, которые называются реляционными базами данных. Чтобы быть хорошим специалистом по данным, нужно знать, как обрабатывать и извлекать данные из этих баз данных."}},{"type":"paragraph","data":{"text":"Нужно научиться:"}},{"type":"list","data":{"items":["добавлять, удалять и извлекать данные из баз данных;","выполнять аналитические функции и преобразовывать структуры баз данных;","PostgreSQL;","MySQL;","SQL Server."],"style":"unordered"}},{"type":"header3","data":{"level":3,"text":"Парсинг информации"}},{"type":"paragraph","data":{"text":"Важно:"}},{"type":"list","data":{"items":["уметь использовать методы find и find_all в парсинге страниц с помощью Beautiful Soup;","понять, как работает перебор элементов и сохранение переменных в Python;","работать с get-запросами и взаимодействовать с API."],"style":"unordered"}},{"type":"header2","data":{"level":2,"text":"Алгоритмы"}},{"type":"paragraph","data":{"text":"Быть программистом без знания алгоритмов страшно, а Data Scientist’ом — опасно. Так что если вы уже освоили Python, Pandas, NumPy, SQL и API, пора учиться применять эти технологии для исследований."}},{"type":"paragraph","data":{"text":"Скорость работы хорошего специалиста часто зависит от трёх факторов: от поставленного вопроса, объёма данных и выбранного алгоритма."}},{"type":"paragraph","data":{"text":"Потому на этом этапе важно понять алгоритмы и структуры данных Беллмана-Форда, Дейкстры, двоичного поиска (и двоичные деревья как инструмент), поиска в глубину и ширину."}},{"type":"paragraph","data":{"text":"Подтянуть знания поможет Tproger (алгоритмы, структуры данных)."}},{"type":"header2","data":{"level":2,"text":"Машинное обучение и нейронные сети"}},{"type":"paragraph","data":{"text":"Пора применять полученные навыки к решению реальных задач. До этого этапа важно знать математику: поиск, очистку и подготовку данных, построение моделей с точки зрения математики и статистики, их оптимизацию средствами матанализа — вот это всё."}},{"type":"paragraph","data":{"text":"Реальные задачи чаще всего решаются с помощью серьёзных библиотек вроде TensorFlow и Keras."}},{"type":"paragraph","data":{"text":"Нужно освоить:"}},{"type":"list","data":{"items":["предобработку данных,","линейную и логистическую регрессию,","кластеризацию и обучение без учителей,","анализ временных рядов,","деревья принятия решений,","рекомендательные системы."],"style":"unordered"}},{"type":"header2","data":{"level":2,"text":"Заключение"}},{"type":"paragraph","data":{"text":"Стать экспертом в Data Science непросто: приходится изучать множество инструментов и быть гибким, чтобы вовремя узнавать о трендах."}}]}

Ошибка в настройках сайта