{"blocks":[{"type":"paragraph","data":{"text":"Для машинного обучения на Python написано очень много библиотек. Сегодня мы рассмотрим одну из самых популярных — Scikit-Learn."}},{"type":"paragraph","data":{"text":"Scikit-Learn упрощает процесс создания классификатора и помогает более чётко выделить концепции машинного обучения, реализуя их с помощью понятной, хорошо документированной и надёжной библиотекой."}},{"type":"header2","data":{"level":2,"text":"Что такое Scikit-Learn?"}},{"type":"paragraph","data":{"text":" "}},{"type":"paragraph","data":{"text":"Scikit-Learn — это Python-библиотека, впервые разработанная David Cournapeau в 2007 году. В этой библиотеке находится большое количество алгоритмов для задач, связанных с классификацией и машинным обучением в целом."}},{"type":"paragraph","data":{"text":"Scikit-Learn базируется на библиотеке SciPy, которую нужно установить перед началом работы."}},{"type":"header2","data":{"level":2,"text":"Основные термины"}},{"type":"paragraph","data":{"text":"В системах машинного обучения или же системах нейросетей существуют входы и выходы. То, что подаётся на входы, принято называть признаками (англ. features)."}},{"type":"paragraph","data":{"text":"Признаки по существу являются тем же, что и переменные в научном эксперименте — они характеризуют какой-либо наблюдаемый феномен и их можно как-то количественно измерить."}},{"type":"paragraph","data":{"text":"Когда признаки подаются на входы системы машинного обучения, эта система пытается найти совпадения, заметить закономерность между признаками. На выходе генерируется результат этой работы."}},{"type":"paragraph","data":{"text":"Этот результат принято называть меткой (англ. label), поскольку у выходов есть некая пометка, выданная им системой, т. е. предположение (прогноз) о том, в какую категорию попадает выход после классификации."}},{"type":"image","data":{"file":{"id":112528,"url":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-2-1.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1023,"height":496,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-2-1.jpg","alt":"Обзор методов классификации в машинном обучении с помощью Scikit-Learn 1","dimensions":{"width":1023,"height":496},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/ov7rWYIFGwzL_DLgIuRr8X3fWMQcTxE7GK-vyWBdG5A/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/8W1deG3Y_Uas8vj3GdSOqgU3SlGPbQ2uj4QRobOIEsQ/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/22scSKEISj7rZrPT2Rd5EI4RXo1ROlYcCz0rNwYP0ZA/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/K8l-kHh3mjwqntQPlyIAR8SBwPTf6Au6n5ScLfoHRO8/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/6b1PGZE89XCPftYaAXRRQdVRHxNRTO94F9AiyMBmONU/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/VK3iVbhYf2OymAEfN1tA5KiKlnKQfjahSi-etPwGDVI/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/_B2LBJRkinEkB4rZy7GufRkA9utrksXpMna7LjwWraw/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/iomvlowNIjzuBqTVGs30RSlf2l5y4PxURbEq2kCKn0o/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tMi0xLmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"В контексте машинного обучения классификация относится к обучению с учителем. Такой тип обучения подразумевает, что данные, подаваемые на входы системы, уже помечены, а важная часть признаков уже разделена на отдельные категории или классы. Поэтому сеть уже знает, какая часть входов важна, а какую часть можно самостоятельно проверить. Пример классификации — сортировка различных растений на группы, например «папоротники» и «покрытосеменные». Подобная задача может быть выполнена с помощью Дерева Решений — одного из типов классификатора в Scikit-Learn."}},{"type":"paragraph","data":{"text":"При обучении без учителя в систему подаются непомеченные данные, и она должна попытаться сама разделить эти данные на категории. Так как классификация относится к типу обучения с учителем, способ обучения без учителя в этой статье рассматриваться не будет."}},{"type":"paragraph","data":{"text":"Процесс обучения модели — это подача данных для нейросети, которая в результате должна вывести определённые шаблоны для данных. В процессе обучения модели с учителем на вход подаются признаки и метки, а при прогнозировании на вход классификатора подаются только признаки."}},{"type":"paragraph","data":{"text":"Принимаемые сетью данные делятся на две группы: набор данных для обучения и набор для тестирования. Не стоит проверять сеть на том же наборе данных, на которых она обучалась, т. к. модель уже будет «заточена» под этот набор."}},{"type":"header2","data":{"level":2,"text":"Типы классификаторов"}},{"type":"paragraph","data":{"text":"Scikit-Learn даёт доступ ко множеству различных алгоритмов классификации. Вот основные из них:"}},{"type":"list","data":{"items":["Метод k-ближайших соседей (K-Nearest Neighbors);","Метод опорных векторов (Support Vector Machines);","Классификатор дерева решений (Decision Tree Classifier) / Случайный лес (Random Forests);","Наивный байесовский метод (Naive Bayes);","Линейный дискриминантный анализ (Linear Discriminant Analysis);","Логистическая регрессия (Logistic Regression);"],"style":"unordered"}},{"type":"paragraph","data":{"text":"На сайте Scikit-Learn есть много литературы на тему этих алгоритмов с кратким пояснением работы каждого из них."}},{"type":"embed","data":{"link":"https://tproger.ru/translations/top-machine-learning-algorithms"}},{"type":"header3","data":{"level":3,"text":"Метод k-ближайших соседей (K-Nearest Neighbors)"}},{"type":"image","data":{"file":{"id":112491,"url":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-4.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1024,"height":925,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-4.png","alt":"Обзор методов классификации в машинном обучении с помощью Scikit-Learn 2","dimensions":{"width":1024,"height":925},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/yPF60hBARcDCulhQOkndHzMZEhSS9oJWXg8X_bGdVDg/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/VmTH2S4EQZZLktNxt6Ad_L5-uAfccyuHoeKc4LDSs9U/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/tBKmBWVg_glgvzWzaYV_gQEV3eRf_R2RZqK62Oxzy8Q/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/7bRItgPm_855l_f4MGGONnP-RC8hhdB4oWRTWnANoPg/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/w1BUYOaxznz2jbxZTcUjI9Y-QFEieTsqe9FtCQQGbpE/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/iSczCH4RVFihG01MnwIvTwwayEEP-ybhCL6TzC0jgZQ/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/DXBbbz5gzw1vHJTfCllhGQ8biWktD5E16hgkxKCFGmI/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/l1pifFpaFqBiFIM7m9kq3zm6zwvIyx3U_CgkI4TiSe4/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNC5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Этот метод работает с помощью поиска кратчайшей дистанции между тестируемым объектом и ближайшими к нему классифицированным объектами из обучающего набора. Классифицируемый объект будет относится к тому классу, к которому принадлежит ближайший объект набора."}},{"type":"header3","data":{"level":3,"text":"Классификатор дерева решений (Decision Tree Classifier)"}},{"type":"paragraph","data":{"text":"Этот классификатор разбивает данные на всё меньшие и меньшие подмножества на основе разных критериев, т. е. у каждого подмножества своя сортирующая категория. С каждым разделением количество объектов определённого критерия уменьшается."}},{"type":"paragraph","data":{"text":"Классификация подойдёт к концу, когда сеть дойдёт до подмножества только с одним объектом. Если объединить несколько подобных деревьев решений, то получится так называемый Случайный Лес (англ. Random Forest)."}},{"type":"header3","data":{"level":3,"text":"Наивный байесовский классификатор (Naive Bayes)"}},{"type":"paragraph","data":{"text":"Такой классификатор вычисляет вероятность принадлежности объекта к какому-то классу. Эта вероятность вычисляется из шанса, что какое-то событие произойдёт, с опорой на уже на произошедшие события."}},{"type":"paragraph","data":{"text":"Каждый параметр классифицируемого объекта считается независимым от других параметров."}},{"type":"header3","data":{"level":3,"text":"Линейный дискриминантный анализ (Linear Discriminant Analysis)"}},{"type":"paragraph","data":{"text":"Этот метод работает путём уменьшения размерности набора данных, проецируя все точки данных на линию. Потом он комбинирует эти точки в классы, базируясь на их расстоянии от центральной точки."}},{"type":"paragraph","data":{"text":"Этот метод, как можно уже догадаться, относится к линейным алгоритмам классификации, т. е. он хорошо подходит для данных с линейной зависимостью."}},{"type":"header3","data":{"level":3,"text":"Метод опорных векторов (Support Vector Machines)"}},{"type":"image","data":{"file":{"id":112529,"url":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-5-1.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":719,"height":458,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2019/05/overview-classification-methods-python-scikit-learn-5-1.jpg","alt":"Обзор методов классификации в машинном обучении с помощью Scikit-Learn 3","dimensions":{"width":719,"height":458},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/y0380Yq0nluF3Ov05w2A6M_weWgXp6AMjzhPPZWGw2k/rs:fill:719:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":719},{"url":"https://tproger.ru/signed_image/SV7W9inQWlTJ8t6hkqrDb8nZndgwh66kOACxw6qK9oc/rs:fill:1438:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":1438},{"url":"https://tproger.ru/signed_image/oV0UJUG3L8PgwVEdTm-Yr-5ti9K7VeQcM_qjHEC18fM/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/7j9b-lZbqVGS6kAoKHF4InDolL_ZzJbcX_ClPxaC-3E/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/2BzCDq1io8cd-5k9yaVQYgkLx3Cnf39W8xjoV-lOgno/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/7HOQC5e5kwb6U8u4oc_n8I64z3jdBjhSL65-_M5GFSA/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/_DRGtVxl4T2FQjIvgjf2Se1K28Yt1UQv_z1aoSRMAwA/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/1nRMl7FfdV1MiPhXdutqWz4aCVsbPtSa0rgUoKhzato/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNS9vdmVydmlldy1jbGFzc2lmaWNhdGlvbi1tZXRob2RzLXB5dGhvbi1zY2lraXQtbGVhcm4tNS0xLmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"719px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"719px"},{"media":"(min-width: 961px)","size":"719px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Работа метода опорных векторов заключается в рисовании линии между разными кластерами точек, которые нужно сгруппировать в классы. С одной стороны линии будут точки, принадлежащие одному классу, с другой стороны — к другому классу."}},{"type":"paragraph","data":{"text":"Классификатор будет пытаться увеличить расстояние между рисуемыми линиями и точками на разных сторонах, чтобы увеличить свою «уверенность» определения класса. Когда все точки построены, сторона, на которую они падают — это класс, которому эти точки принадлежат."}},{"type":"header3","data":{"level":3,"text":"Логистическая регрессия (Logistic Regression)"}},{"type":"paragraph","data":{"text":"Логистическая регрессия выводит прогнозы о точках в бинарном масштабе — нулевом или единичном. Если значение чего-либо равно либо больше 0.5, то объект классифицируется в большую сторону (к единице). Если значение меньше 0.5 — в меньшую (к нулю)."}},{"type":"paragraph","data":{"text":"У каждого признака есть своя метка, равная только 0 или только 1. Логистическая регрессия является линейным классификатором и поэтому используется, когда в данных прослеживается какая-то линейная зависимость."}},{"type":"header2","data":{"level":2,"text":"Примеры задач классификации"}},{"type":"paragraph","data":{"text":"Задача классификации — эта любая задача, где нужно определить тип объекта из двух и более существующих классов. Такие задачи могут быть разными: определение, кошка на изображении или собака, или определение качества вина на основе его кислотности и содержания алкоголя."}},{"type":"paragraph","data":{"text":"В зависимости от задачи классификации вы будете использовать разные типы классификаторов. Например, если классификация содержит какую-то бинарную логику, то к ней лучше всего подойдёт логистическая регрессия."}},{"type":"paragraph","data":{"text":"По мере накопления опыта вам будет проще выбирать подходящий тип классификатора. Однако хорошей практикой является реализация нескольких подходящих классификаторов и выбор наиболее оптимального и производительного."}},{"type":"header2","data":{"level":2,"text":"Реализация классификатора"}},{"type":"paragraph","data":{"text":"Первый шаг в реализации классификатора — его импорт в Python. Вот как это выглядит для логистической регрессии:"}},{"type":"code","data":{"code":"from sklearn.linear_model import LogisticRegression","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Вот импорты остальных классификаторов, рассмотренных выше:"}},{"type":"code","data":{"code":"from sklearn.discriminant_analysis import LinearDiscriminantAnalysis \r\nfrom sklearn.neighbors import KNeighborsClassifier \r\nfrom sklearn.naive_bayes import GaussianNB \r\nfrom sklearn.tree import DecisionTreeClassifier \r\nfrom sklearn.svm import SVC","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Однако, это не все классификаторы, которые есть в Scikit-Learn. Про остальные можно прочитать на соответствующей странице в документации."}},{"type":"paragraph","data":{"text":"После этого нужно создать экземпляр классификатора. Сделать это можно создав переменную и вызвав функцию, связанную с классификатором."}},{"type":"code","data":{"code":"logreg_clf = LogisticRegression()","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь классификатор нужно обучить. Перед этим нужно «подогнать» его под тренировочные данные."}},{"type":"paragraph","data":{"text":"Обучающие признаки и метки помещаются в классификатор через функцию fit:"}},{"type":"code","data":{"code":"logreg_clf.fit(features, labels)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"После обучения модели данные уже можно подавать в классификатор. Это можно сделать через функцию классификатора predict, передав ей параметр (признак) для прогнозирования:"}},{"type":"code","data":{"code":"logreg_clf.predict(test_features)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Эти этапы (создание экземпляра, обучение и классификация) являются основными при работе с классификаторами в Scikit-Learn. Но эта библиотека может управлять не только классификаторами, но и самими данными. Чтобы разобраться в том, как данные и классификатор работают вместе над задачей классификации, нужно разобраться в процессах машинного обучения в целом."}},{"type":"header2","data":{"level":2,"text":"Процесс машинного обучения"}},{"type":"paragraph","data":{"text":"Процесс содержит в себе следующие этапы: подготовка данных, создание обучающих наборов, создание классификатора, обучение классификатора, составление прогнозов, оценка производительности классификатора и настройка параметров."}},{"type":"paragraph","data":{"text":"Во-первых, нужно подготовить набор данных для классификатора — преобразовать данные в корректную для классификации форму и обработать любые аномалии в этих данных. Отсутствие значений в данных либо любые другие отклонения — все их нужно обработать, иначе они могут негативно влиять на производительность классификатора. Этот этап называется предварительной обработкой данных (англ. data preprocessing)."}},{"type":"paragraph","data":{"text":"Следующим шагом будет разделение данных на обучающие и тестовые наборы. Для этого в Scikit-Learn существует отличная функция traintestsplit."}},{"type":"paragraph","data":{"text":"Как уже было сказано выше, классификатор должен быть создан и обучен на тренировочном наборе данных. После этих шагов модель уже может делать прогнозы. Сравнивая показания классификатора с фактически известными данными, можно делать вывод о точности классификатора."}},{"type":"paragraph","data":{"text":"Вероятнее всего, вам нужно будет «корректировать» параметры классификатора, пока вы не достигните желаемой точности (т. к. маловероятно, что классификатор будет соответствовать всем вашим требованиям с первого же запуска)."}},{"type":"paragraph","data":{"text":"Ниже будет представлен пример работы машинного обучения от обработки данных и до оценки."}},{"type":"header2","data":{"level":2,"text":"Реализация образца классификации"}},{"type":"code","data":{"code":"# Импорт всех нужных библиотек\r\nimport pandas as pd \r\nfrom sklearn.metrics import classification_report \r\nfrom sklearn.metrics import confusion_matrix \r\nfrom sklearn.metrics import accuracy_score \r\nfrom sklearn.neighbors import KNeighborsClassifier \r\nfrom sklearn.svm import SVC","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Поскольку набор данных iris достаточно распространён, в Scikit-Learn он уже присутствует, достаточно лишь заложить эту команду:"}},{"type":"code","data":{"code":"sklearn.datasets.load_iris","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Тем не менее, тут ещё нужно подгрузить CSV-файл, который можно скачать здесь."}},{"type":"paragraph","data":{"text":"Этот файл нужно поместить в ту же папку, что и Python-файл. В библиотеке Pandas есть функция read_csv(), которая отлично работает с загрузкой данных."}},{"type":"code","data":{"code":"data = pd.read_csv('iris.csv')\r\n\r\n# Проверяем, всё ли правильно загрузилось\r\n\r\nprint(data.head(5))","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Благодаря тому, что данные уже были подготовлены, долгой предварительной обработки они не требуют. Единственное, что может понадобиться — убрать ненужные столбцы (например ID) таким образом:"}},{"type":"code","data":{"code":"data.drop('Id', axis=1, inplace=True)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь нужно определить признаки и метки. С библиотекой Pandas можно легко «нарезать» таблицу и выбрать определённые строки/столбцы с помощью функции iloc():"}},{"type":"code","data":{"code":"# \".iloc\" принимает row_indexer, column_indexer \r\nX = data.iloc[:,:-1].values \r\n# Теперь выделим нужный столбец\r\ny = data['Species']","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Код выше выбирает каждую строку и столбец, обрезав при этом последний столбец."}},{"type":"paragraph","data":{"text":"Выбрать признаки интересующего вас набора данных можно также передав в скобках заголовки столбцов:"}},{"type":"code","data":{"code":"# Альтернативный способ выбора нужных столбцов:\r\nX = data.iloc['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm']","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"После того, как вы выбрали нужные признаки и метки, их можно разделить на тренировочные и тестовые наборы, используя функцию train_test_split():"}},{"type":"code","data":{"code":"# test_size показывает, какой объем данных нужно выделить для тестового набора\r\n# Random_state — просто сид для случайной генерации\r\n# Этот параметр можно использовать для воссоздания определённого результата:\r\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=27)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Чтобы убедиться в правильности обработки данных, используйте:"}},{"type":"code","data":{"code":"print(X_train) \r\nprint(y_train)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь можно создавать экземпляр классификатора, например метод опорных векторов и метод k-ближайших соседей:"}},{"type":"code","data":{"code":"SVC_model = svm.SVC() \r\n# В KNN-модели нужно указать параметр n_neighbors\r\n# Это число точек, на которое будет смотреть \r\n# классификатор, чтобы определить, к какому классу принадлежит новая точка\r\nKNN_model = KNeighborsClassifier(n_neighbors=5)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь нужно обучить эти два классификатора:"}},{"type":"code","data":{"code":"SVC_model.fit(X_train, y_train) \r\nKNN_model.fit(X_train, y_train)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Эти команды обучили модели и теперь классификаторы могут делать прогнозы и сохранять результат в какую-либо переменную."}},{"type":"code","data":{"code":"SVC_prediction = SVC_model.predict(X_test) \r\nKNN_prediction = KNN_model.predict(X_test)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь пришло время оценить точности классификатора. Существует несколько способов это сделать."}},{"type":"paragraph","data":{"text":"Нужно передать показания прогноза относительно фактически верных меток, значения которых были сохранены ранее."}},{"type":"code","data":{"code":"# Оценка точности — простейший вариант оценки работы классификатора\r\nprint(accuracy_score(SVC_prediction, y_test)) \r\nprint(accuracy_score(KNN_prediction, y_test)) \r\n# Но матрица неточности и отчёт о классификации дадут больше информации о производительности\r\nprint(confusion_matrix(SVC_prediction, y_test)) \r\nprint(classification_report(KNN_prediction, y_test))","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Вот, к примеру, результат полученных метрик:"}},{"type":"code","data":{"code":"SVC accuracy: 0.9333333333333333 \r\nKNN accuracy: 0.9666666666666667","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Поначалу кажется, что KNN работает точнее. Вот матрица неточностей для SVC:"}},{"type":"code","data":{"code":"[[ 7 0 0]\r\n [ 0 10 1]\r\n [ 0 1 11]]","language":"json lazy-code"}},{"type":"paragraph","data":{"text":"Количество правильных прогнозов идёт с верхнего левого угла в нижний правый. Вот для сравнения метрики классификации для KNN:"}},{"type":"code","data":{"code":"precision recall f1-score support\r\n\r\nIris-setosa 1.00 1.00 1.00 7 \r\nIris-versicolor 0.91 0.91 0.91 11 \r\nIris-virginica 0.92 0.92 0.92 12\r\n\r\nmicro avg 0.93 0.93 0.93 30 \r\nmacro avg 0.94 0.94 0.94 30 \r\nweighted avg 0.93 0.93 0.93 30","language":"clike lazy-code"}},{"type":"header2","data":{"level":2,"text":"Оценка классификатора"}},{"type":"paragraph","data":{"text":"Когда дело доходит до оценки точности классификатора, есть несколько вариантов."}},{"type":"header3","data":{"level":3,"text":"Точность классификации"}},{"type":"paragraph","data":{"text":"Точность классификации измерять проще всего, и поэтому этот параметр чаще всего используется. Значение точности — это число правильных прогнозов, делённое на число всех прогнозов или, проще говоря, отношение правильных прогнозов ко всем."}},{"type":"paragraph","data":{"text":"Хоть этот показатель и может быстро дать вам явное представление о производительности классификатора, его лучше использовать, когда каждый класс имеет хотя бы примерно одинаковое количество примеров. Так как такое будет случаться редко, рекомендуется использовать другие показатели классификации."}},{"type":"header3","data":{"level":3,"text":"Логарифмические потери"}},{"type":"paragraph","data":{"text":"Значение Логарифмических Потерь (англ. Logarithmic Loss) — или просто логлосс — показывает, насколько классификатор «уверен» в своём прогнозе. Логлосс возвращает вероятность принадлежности объекта к тому или иному классу, суммируя их, чтобы дать общее представление об «уверенности» классификатора."}},{"type":"paragraph","data":{"text":"Этот показатель лежит в промежутке от 0 до 1 — «совсем не уверен» и «полностью уверен» соответственно. Логлосс сильно падает, когда классификатор сильно «уверен» в неправильном ответе."}},{"type":"header3","data":{"level":3,"text":"Площадь ROC-кривой (AUC)"}},{"type":"paragraph","data":{"text":"Такой показатель используется только при бинарной классификации. Площадь под ROC-кривой представляет способность классификатора различать подходящие и не подходящие какому-либо классу объекты."}},{"type":"paragraph","data":{"text":"Значение 1.0: вся область, попадающая под кривую, представляет собой идеальный классификатор. Следовательно, 0.5 означает, что точность классификатора соответствует случайности. Кривая рассчитывается с учётом точности и специфичности модели. Подробнее о расчётах можно прочитать здесь."}},{"type":"header3","data":{"level":3,"text":"Матрица неточностей"}},{"type":"paragraph","data":{"text":"Матрица неточностей (англ. Confusion Matrix) — это таблица или диаграмма, показывающая точность прогнозирования классификатора в отношении двух и более классов. Прогнозы классификатора находятся на оси X, а результат (точность) — на оси Y."}},{"type":"paragraph","data":{"text":"Ячейки таблицы заполняются количеством прогнозов классификатора. Правильные прогнозы идут по диагонали от верхнего левого угла в нижний правый. Про это можно почитать в данной статье."}},{"type":"header3","data":{"level":3,"text":"Отчёт о классификации"}},{"type":"paragraph","data":{"text":"В библиотеке Scikit-Learn уже встроена возможность создавать отчёты о производительности классификатора. Эти отчёты дают интуитивно понятное представление о работе модели."}},{"type":"header2","data":{"level":2,"text":"Заключение"}},{"type":"paragraph","data":{"text":"Чтобы лучше вникнуть в работу с Scikit-Learn, неплохо было бы узнать больше о работе различных методов классификации. После этого стоит лучше узнать о замере производительности классификаторов. Однако понимание многих нюансов в классификации приходит только со временем."}},{"type":"embed","data":{"link":"https://tproger.ru/translations/hitchhikers-guide-to-ml"}}]}

Ошибка в настройках сайта