{"blocks":[{"type":"paragraph","data":{"text":"Прежде, чем мы с вами перейдём к инструментам машинного обучения, стоит проговорить одну простую, но важную вещь. Начинающие часто воспринимают машинное обучение как огромный цельный процесс. Нередко пугаются и впадают в ступор из-за обширности темы. Поэтому начнём с разделения процесса машинного обучения на три основных этапа:"}},{"type":"list","data":{"items":["Сбор и обработка данных.","Обучение и оценка модели.","Использование обученной модели."],"style":"ordered"}},{"type":"paragraph","data":{"text":"В таком же порядке рассмотрим и инструменты, которые помогут всё это реализовать."}},{"type":"header2","data":{"level":2,"text":"Языки программирования для машинного обучения"}},{"type":"paragraph","data":{"text":"Нам понадобятся готовые библиотеки и фреймворки для машинного обучения. Мы ведь хотим научиться ездить на машине, а не конструировать её. Если вы пытаетесь подобрать «тот, самый подходящий» язык, то не переживайте: в любом современном языке программирования уже написаны такие инструменты, поэтому берите любой, который нравится (или знаете)."}},{"type":"paragraph","data":{"text":"Но если мы начнём рассказывать обо всех языках в одной статье, то она будет очень длинной. Поэтому дальше будем рассматривать всё, что связано именно с Python, популярность которого стабильно растёт на протяжении вот уже нескольких лет благодаря своей гибкости, хорошей читаемости и простоте в обучении. Написанные под него библиотеки машинного обучения — самые популярные на момент выпуска статьи."}},{"type":"header2","data":{"level":2,"text":"Инструменты для сбора, обработки и визуализации данных"}},{"type":"paragraph","data":{"text":"Здесь мы собираем данные с различных сайтов и создаём датасет, который потом используем для обучения алгоритма. Сбор данных с сайтов ещё называют веб-скрейпингом (ранее мы подробно рассказывали об инструментах для веб-скрейпинга)."}},{"type":"paragraph","data":{"text":"После того, как собрали данные, их нужно обработать, чтобы избавиться от ошибок, шума и несогласованностей, которые приведут к ситуации «мусор на входе — мусор на выходе». Это очень важно, так как от корректности данных будет зависеть точность результатов алгоритма."}},{"type":"paragraph","data":{"text":"Визуализация поможет определить линейность структуры данных, существенные признаки и аномалии. Для этих задач можно воспользоваться готовыми веб-сервисами, либо написать собственный код."}},{"type":"paragraph","data":{"text":"После того как мы почистили наш датасет, нужно поделить его на 80% — для обучения модели, — и 20% — для её проверки и тестирования."}},{"type":"header3","data":{"level":3,"text":"pandas: библиотека для обработки и анализа данных"}},{"type":"paragraph","data":{"text":"Она построена поверх NumPy, о котором поговорим чуть дальше. Это наши группировки, сортировки, извлечения и трансформации. Для работы с файлами CSV, JSON и TSV pandas превращает их в структуру данных DataFrame со строками и столбцами. Выглядит, как обычная таблица в Excel, и работать с ней легче, чем с for-циклами для прохода по элементам списков и словарей."}},{"type":"header3","data":{"level":3,"text":"Tableau, Power BI, Google Data Studio: простая онлайн-визуализация без кода"}},{"type":"paragraph","data":{"text":"Инструменты для бизнес-аналитики и людей без особых навыков программирования. Ключевое слово здесь — визуализация. Загружаем датасет и пользуемся встроенными функциями, фильтрами и аналитикой в реальном времени. Эти сервисы быстро собирают инсайты и представляют их в наглядной форме. И Tableau, и Power BI, и Google Data Studio имеют как платные подписки, так и бесплатные версии (само собой, с ограничениями)."}},{"type":"image","data":{"file":{"id":134445,"url":"https://media.tproger.ru/uploads/2020/09/data-visualization.gif"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1326,"height":658}},{"type":"header3","data":{"level":3,"text":"Matplotlib: библиотека для построения 2D-графиков"}},{"type":"paragraph","data":{"text":"Matplotlib в связке с библиотеками seaborn, ggplot и HoloViews позволяет строить разнообразные графики: гистограммы, диаграммы рассеяния, круговые и полярные диаграммы, и много других. Для большинства из них достаточно написать всего пару строк."}},{"type":"header2","data":{"level":2,"text":"Интерактивные среды разработки"}},{"type":"paragraph","data":{"text":"Эти инструменты часто используются для Data Science и машинного обучения. Веб-среда (её также называют «notebook») позволяет разработчикам на лету тестировать небольшие части кода, проверять функциональность и разные гипотезы. Тем не менее, при желании в ней можно поместить и целый проект."}},{"type":"header3","data":{"level":3,"text":"Jupyter Notebook: интерактивное моделирование"}},{"type":"paragraph","data":{"text":"Простая в использовании бесплатная интерактивная веб-оболочка. Помимо Python, Jupyter Notebook поддерживает более чем 40 языков программирования. В нём удобно экспериментировать с новыми идеями в режиме «зашёл-сделал-вышел», писать документацию и создавать аналитические отчёты. Напоминает IDE, но по функциональности, хоть и достаточно широкому, до неё не дотягивает."}},{"type":"paragraph","data":{"text":"Среди инструментов для машинного обучения, и в целом Data Science, Jupyter хорош благодаря быстрому анализу, моделированию и визуализации данных. Результаты можно экспортировать во множество форматов, в числе которых — широко распространённые PDF и HTML."}},{"type":"header3","data":{"level":3,"text":"Kaggle: сообщество Data Science"}},{"type":"paragraph","data":{"text":"Kaggle также предоставляет интерактивную среду разработки. Разница в том, что всего один клик отделяет вас от целого сообщества Data Science и машинного обучения. Здесь можно найти готовые датасеты, модели и даже программный код для решения разных задач."}},{"type":"paragraph","data":{"text":"Также крупные коммерческие компании часто проводят здесь конкурсы и разыгрывают призовой фонд в обмен на бесплатную лицензию на использование интеллектуальной собственности (алгоритма и программного обеспечения) победившего участника."}},{"type":"header2","data":{"level":2,"text":"Фреймворки и библиотеки для общего машинного обучения"}},{"type":"paragraph","data":{"text":"Обучение модели делится на две большие категории: с учителем и без. В первом случае мы маркируем датасет, объясняя алгоритму машинного обучения, где правильный ответ, а где — нет. Так данные можно представить таблицей соответствий «элемент-категория»."}},{"type":"paragraph","data":{"text":"Во втором случае алгоритм сам вынужден искать признаки и закономерности, так как в датасете мы даём данные без уточняющей информации. Датасет представлен сплошным потоком данных нужного типа: текста, картинок и др."}},{"type":"paragraph","data":{"text":"Для каждой категории используются свои алгоритмы машинного обучения (кластеризация, классификация, регрессия, ассоциация). Оптимальный выбор зависит от задачи, сложности модели, размера и типа данных."}},{"type":"paragraph","data":{"text":"Имейте в виду, что обучение и отладка собственной модели — долгий и затратный процесс. Очень вероятно, что кто-то уже решал похожую задачу и подготовил модель. Поэтому стоит поискать, воспользоваться реализованной архитектурой и переучить алгоритм под ваши данные. Но чем больше ваша задача отличается от той, что решает готовая модель, тем больше нужно её переучивать и менять параметры."}},{"type":"header3","data":{"level":3,"text":"NumPy: готовые вычислительные алгоритмы и линейная алгебра для машинного обучения"}},{"type":"paragraph","data":{"text":"Данные в машинном обучении представлены числовыми массивами. Даже если мы работаем с картинками или естественной речью, они должны быть преобразованы в числовые массивы. В NumPy уже реализовано всё необходимое для этого: преобразование Фурье, генерация случайных чисел, перемножение матриц и другие сложные операции. Вам остаётся только пользоваться."}},{"type":"header3","data":{"level":3,"text":"NLTK: разбираем естественный язык на части"}},{"type":"paragraph","data":{"text":"Один из ведущих инструментов для обработки естественного языка. По аналогии с тем, как NumPy упрощает линейную алгебру, NLTK упрощает парсинг текста, анализ тональности, структуры предложений и всё, что с этим связано."}},{"type":"header3","data":{"level":3,"text":"scikit-learn: всё гениальное просто"}},{"type":"paragraph","data":{"text":"Позиционируется как простая библиотека с кучей примеров на официальном сайте, из-за чего хорошо подходит новичкам. Но это не значит, что для серьёзных проектов он не годится."}},{"type":"paragraph","data":{"text":"Spotify, например, сделали свою рекомендательную систему как раз с помощью scikit-learn. Работает в связке с SciPy, NumPy и Matplotlib. Все базовые функции типа кластеризации, классификации и регрессии, разумеется, на месте."}},{"type":"header2","data":{"level":2,"text":"Фреймворки глубокого обучения и моделирования нейросетей"}},{"type":"paragraph","data":{"text":"Упомянутые инструменты машинного обучения позволяют нам получить модель, способную выполнять сравнительно простые задачи. Однако дальше речь пойдёт о глубоком машинном обучении нейронных сетей. Здесь для принятия более сложного решения алгоритм учитывает различные факторы, пропуская входящие данные через множество слоёв нейронов."}},{"type":"paragraph","data":{"text":"Само собой, для этого нужно больше вычислительной мощности и данных для обучения. Например для GPT-3 OpenAI насобирали датасет из 45 ТБ текстовых данных и отфильтровали его до 570 ГБ. Обучение модели стоило им миллионы долларов. При этом использовали они даже не весь текст. Поэтому в проектах поменьше обучение часто делегируют облачным сервисам типа Google Cloud или Amazon AWS."}},{"type":"paragraph","data":{"text":"На рынке инструментов глубокого машинного обучения классическая ситуация: бодаются два мастодонта — фреймворки PyTorch и TensorFlow. Раньше в них были существенные отличия. Но разграничения постепенно стираются с тем, как они перенимают друг у друга лучшие особенности."}},{"type":"image","data":{"file":{"id":134473,"url":"https://media.tproger.ru/uploads/2020/09/tensorflow-vs-pytorch-searches.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1710,"height":511,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/09/tensorflow-vs-pytorch-searches.png","alt":"Инструменты машинного обучения для начинающих 2","dimensions":{"width":1710,"height":511},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/DsG9PW-f9RsjE6Mh7irO7rIrG6bEDlLL-Bmw_ibss14/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/hMoGGPPDo3gD6uFVFBQ3Iyi-gFk7BRzHZSrpplEdXxg/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/YM9fpPrMYp_Yk3bIF6WVNvuYrptzeTtNKnQNkAs2IBA/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/exE9LOVVjO-8hKyLkfcRdb5_WzAZAoR88LcpUBoPbCY/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/BY9Mvs0H2JzQBVigaiDbInkdHiLOMg_xSwajgNvgLKo/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/kJxrA_5JCKN51psnGOhD24AJXZj_2gVnQ5lw8PivEd0/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/5TaI61eAYT37R9e1bKeikhYK4PkY8fwVEw9MRtMWJ9U/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/TdTVIsIgBqCwnI4afmGNrrMxMLQEnVdwmNxrMkVQyg0/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wOS90ZW5zb3JmbG93LXZzLXB5dG9yY2gtc2VhcmNoZXMucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"header3","data":{"level":3,"text":"PyTorch: король исследований"}},{"type":"paragraph","data":{"text":"Прост в изучении и понимании, хорошо дружит с остальной питоновской экосистемой. Поэтому к новичкам PyTorch относится мягко. Отладка проходит на интуитивном уровне: ставим брейкпоинт куда угодно в коде и смотрим значения переменных. Ещё исследователям нравятся динамические графы, благодаря которым можно менять поведение модели на ходу. Всё это позволяет проверять различные теории и подходы на небольших датасетах без долгих задержек."}},{"type":"header3","data":{"level":3,"text":"TensorFlow: король продакшена"}},{"type":"paragraph","data":{"text":"Главное отличие — в подходе. Если PyTorch правит в академической среде, то TensorFlow изначально ориентирован на рынок. Да, графы у него статические; для отладки нужно учиться работать с отдельным дебагером tfdbg; а его API меняли кучу раз, ломая при этом обратную совместимость. Но он заточен для решения задач именно бизнеса: пропускать через себя огромные массивы данных при хорошей производительности и с возможностью использовать модели на мобильных устройствах без костылей и бубнов. Хотя и PyTorch уже двигается в этом направлении."}},{"type":"header3","data":{"level":3,"text":"Keras: «С++ машинного обучения»"}},{"type":"paragraph","data":{"text":"Первое, что новичок замечает в TensorFlow — это сложность. Ведь буквально всё находится и происходит внутри графа — и операции, и числа. А значит, не так, как обычно."}},{"type":"paragraph","data":{"text":"Keras — более высокоуровневый интерфейс для TensorFlow, CNTK, Theano, MXNet и PlaidML. Простыми словами, он создан, чтобы стать языком «С++ машинного обучения» для низкоуровневых фреймворков. Новичок может не думать, как реализовать тензорную алгебру, построить модель и прочее. Он просто воспользуется готовыми строительными блоками. Мыслительный ресурс освобождается, из-за чего начинающие специалисты быстрее учатся, а более опытные разработчики больше концентрируются на стратегических задачах."}},{"type":"header3","data":{"level":3,"text":"TensorBoard: козырь в рукаве TensorFlow"}},{"type":"paragraph","data":{"text":"Человеку непросто держать и анализировать в голове все данные. Нативная визуализация графов в браузере с разными метриками и возможностью отслеживать работу моделей — то, чего нет у PyTorch. Конечно, можно сказать про Visdom, но по возможностям он сильно уступает TensorBoard. Поэтому в PyTorch приходится часто использовать Matplotlib для визуализации и писать графики самому."}},{"type":"paragraph","data":{"text":"В этом аспекте TensorFlow выигрывает. Помимо метрик, разные структуры можно окрашивать в зависимости от используемого для вычислений устройства (CPU или GPU), подсвечивать узлы для отслеживания входящих данных, отображать несколько графов одновременно. Словом, всё, чтобы мониторить работу было легко и удобно."}},{"type":"separator","data":{"text":"***"}},{"type":"paragraph","data":{"text":"Какие ещё инструменты машинного обучения вы бы посоветовали? Расскажите в комментариях!"}}]}

Ошибка в настройках сайта