{"blocks":[{"type":"expertLegacy","data":{"id":"835"}},{"type":"paragraph","data":{"text":"В разработке ПО в целом и видеоигр в частности важно всегда иметь возможность проанализировать работу системы и поведение пользователей. Для того чтобы аналитики имели возможность собрать информацию и дать полезные рекомендации, а разработчики — воспользоваться этими рекомендациями для улучшения продукта, нужно заранее позаботиться не только о корректном логировании, но и о правильной разметке данных. Так как это не всегда возможно, часть данных не используется при анализе, или, что ещё хуже, на их основе делаются некорректные выводы."}},{"type":"paragraph","data":{"text":"Подход к работе с неверно размеченными данными, описанный в статье, пригодится любому аналитику или датасаентисту, который имеет дело с неверно размеченными данными, но очень хочет использовать их для построения решений, и не ищет лёгких путей."}},{"type":"header2","data":{"level":2,"text":"Что такое неверная разметка и почему это происходит?"}},{"type":"paragraph","data":{"text":"Неверно размеченные данные — это данные, метки которых не соответствуют действительности. К примеру, у вас есть набор картинок котиков и собачек, но часть котиков почему-то оказывается собачками согласно разметке. Такая проблема может возникнуть по нескольким причинам: субъективность человека, размечающего данные; ошибки при получении данных, и, в случае косвенной разметки, выбор неверного алгоритма. Очевидно, такие проблемы могут возникнуть в абсолютно любых областях: в медицине, развлечениях, обучении — где угодно."}},{"type":"paragraph","data":{"text":"Я работаю в Wargaming, наша область — это игры. А как известно, в играх проходит множество событий (таких, как акции на какой-либо контент, запуск нового режима), имеющих совершенно разные цели: начиная от привлечения новых игроков, заканчивая монетизацией или повышением их вовлеченности. Проведя очередное игровое событие, вы, как аналитик, получаете следующую задачу: реализовать алгоритм, с помощью которого можно будет прогнозировать участие игроков в подобном событии в будущем. Вы хотите получить инструмент вида:"}},{"type":"image","data":{"file":{"id":125136,"url":"https://media.tproger.ru/uploads/2020/02/image14.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1598,"height":305,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image14.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 1","dimensions":{"width":1598,"height":305},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/1Dw1VO4riUqfBYRKl-_moJ9GrT_vgZLO63za5fRG5kc/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/70QUnhijw7IuITKwi7vfySBijglB732myVH3iB9TQag/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/ms4yrTT7ZJFOLxBgoojyCaODyjgiv-u-GBC00MwPB0A/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/9NMqXiLjbLua8tkHxs57AZaMMAv8S0Y8kM7neQm2LD4/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/sU27GFEHnSTlr5nDd1vB3Cr3ybn5GGxbblNaOz5xdpA/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/ZYJ29ocboQNYjkKUXvmLT-62RzUJ-M9YNmDjxNH3754/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/JiKmkDwwVSPKhcWCkDd8FDmC2gdE9_YOArkIeti4lTo/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/FSBk2ZL4up3zw81DVu_fyVqTBWWEay3QOyQKcuY0kwQ/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE0LmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Входные данные, которые вам доступны, включают:"}},{"type":"list","data":{"items":["характеристики игроков (сколько они играют боев, в каких режимах, какую технику предпочитают и т. д.),","факт участия игрока в событии (к примеру, совершили ли игроки покупку предлагаемого контента)."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Кажется, что ничто не мешает вам обучить алгоритм на основе характеристик игроков для прогнозирования вероятности его участия в событии. Однако во время проведения события что-то идёт не так, и вы понимаете, что часть игроков, которые хотели в нём поучаствовать, не могут этого сделать. Если это покупка — они пытаются её совершить, но не могут, — количество предлагаемого контента ограничено; если это новый режим — они пытаются сыграть в него, но у них не получается зайти в бой по каким-то техническим проблемам. Эти игроки так и останутся в статусе «не поучаствовал, но хотел бы»."}},{"type":"image","data":{"file":{"id":125137,"url":"https://media.tproger.ru/uploads/2020/02/image18.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1598,"height":305,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image18.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 2","dimensions":{"width":1598,"height":305},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/X3n5lLaTWqbUMzKubFI07WHTpWzKq4egV2UA6D4BhSQ/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/_kwuW3-YHQsZzv2fo3zjGu4ZoVDIp5m9Y8cYl9FO4q0/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/Jl3V9KDq0q73xk4nNKsW1g2BOjlxdqbSwFn7LapRWqs/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/RHo8Dv9gH23PSu0H9laNNC-rJK-QN5-MWJuSWfkQ26o/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/v0MSnrTHqKbR4HhDg0q10nNglS3E2eRFkmf0vtM3PPs/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/2tk0wj4xjbhwxDXLIhFlTxunRd-6GmN0meXK-axn9Cg/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/clF6JtR5zKPRR3At3oI7tr_a93Zda1-MfqLGP6Nh64k/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/RuMMMpvg_MoBGpMlZ69Y3mc_DT7gXn4A6u-Hw-k7pFY/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE4LmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Вот незадача! Ведь вам, как аналитику, очень нужны точные данные об участниках события, чтобы использовать эту информацию для обучения алгоритма. А данные, которые у вас есть, выглядят следующим образом:"}},{"type":"image","data":{"file":{"id":125138,"url":"https://media.tproger.ru/uploads/2020/02/image15.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1598,"height":609,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image15.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 3","dimensions":{"width":1598,"height":609},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/3v51_Kqe7-YDlKkOrBafIK4SxSFN9gTETAEoYFdUmV4/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/CPffeO37QA_n_dB64mawCdaACDJ_4ZTf1sZ7CxQwhMk/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/x7gwKoubjcsfQ4OgMKk09XvrmvOvFS-ho5C5Y8s954Y/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/xYFG90B_1y6sRl8FZPr9MUqfORzW2_5iVqZ0PQAZw5I/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/52ImBUeJe5pYJS83i4cvWlPBKxfXRu59qCDnh_9yh2A/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/EFA8zP5bn8eu33oGl5wEFZkVGlt7J_YSVW6G6jPYXws/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/rXqwm7wluJRYBTtefIghfOv6nuSobIiX_02d0RaulD0/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/kedelnAvslUvlb8Kc01G8W4Xk1JkQkROe-iseds8Kgk/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE1LmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"При этом третьего столбца на самом деле не существует. И нет никакого технического способа проверить, правильна метка или нет. Всё, что вы знаете, — это то, что часть игроков попала в ошибочный класс."}},{"type":"header2","data":{"level":2,"text":"Что делать?"}},{"type":"header3","data":{"level":3,"text":"Вариант первый: ничего!"}},{"type":"paragraph","data":{"text":"Ну не можем мы обучить модель и сделать прогноз, — бывает. Мы всегда можем посчитать описательные статистики по игрокам-участникам события (к примеру, среднее количество боёв в день) и выделить простые правила для отбора потенциальных участников в новом событии. В случае среднего количества боёв в день, может получиться так, что у группы участников значение метрики в среднем на 30% выше, чем у не участников. Вот мы и будем предполагать, что все игроки, с похожим значением метрики, как у участников события, станут потенциальными участниками следующего события."}},{"type":"paragraph","data":{"text":"Плюсы:"}},{"type":"list","data":{"items":["Просто и быстро."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Минусы:"}},{"type":"list","data":{"items":["Отсутствие масштабируемости или ограниченное количество метрик, которые вы можете охватить. Если речь идёт про 1–2 метрики, использовать правила для них не составит труда. Но в действительности метрик, которые вы захотите сравнить, окажется в разы больше. А если вам вдруг захочется посмотреть на взаимное влияние нескольких признаков, сделать это будет очень сложно и преимущество, связанное со скоростью, уже не будет актуальным.","Точность/качество. Вы просто не сможете их адекватно оценить.","Влияние ошибочных данных. Неверно размеченных игроков вы всё же никуда не денете, поэтому их характеристики будут искажать значения рассматриваемых метрик. К примеру, в «не участников» события попадут потенциальные участники, с количеством боёв в день гораздо более высоким, чем у не участников. В итоге среднее значение или другая статистика, будут иметь ошибочно завышенное значение."],"style":"unordered"}},{"type":"header3","data":{"level":3,"text":"Вариант второй: обучить алгоритм на той разметке, которая есть"}},{"type":"paragraph","data":{"text":"В качестве вектора признаков для характеристики игроков берём всевозможные метрики, которые приходят нам на ум (включая среднее количество боёв в день), а в качестве целевой переменной — участие игрока в событии, предполагая, что ошибок в данных у нас нет. На этих данных обучаем алгоритм, используя магию машинного обучения, и с помощью полученного алгоритма прогнозируем участие игроков в следующем событии."}},{"type":"paragraph","data":{"text":"Плюсы:"}},{"type":"list","data":{"items":["Масштабируемость. За счёт того, что это алгоритм машинного обучения, вы учитываете гораздо больше признаков и их взаимное влияние на целевую переменную.","Точность/качество. Теперь-то вы можете оценить качество полученной модели (недаром было придумано такое огромное количество метрик качества методов машинного обучения), однако, скорее всего, то, что вы получите, вас не устроит."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Минусы:"}},{"type":"list","data":{"items":["Влияние ошибочных данных. А качество алгоритма не устроит вас потому, что ошибочные данные всё так же присутствуют в обучающей выборке и оказывают существенное влияние на обучение."],"style":"unordered"}},{"type":"header3","data":{"level":3,"text":"Вариант третий – переразметить игроков и обучить модель на переразмеченных данных"}},{"type":"paragraph","data":{"text":"Прежде чем обучать модель на характеристиках игроков и целевой переменной, попытаемся получить новые, более точные, значения целевой переменной. И только после этого, используя обновлённые значения, обучим финальный алгоритм."}},{"type":"paragraph","data":{"text":"Плюсы:"}},{"type":"list","data":{"items":["Масштабируемость. Это всё та же модель машинного обучения, с помощью которой вы учтёте множество признаков и их взаимосвязи.","Точность/качество. Смотри предыдущий пункт.","Отсутствие влияния ошибочных данных. Если у вас получилось качественно (а как это понять — будет описано ниже) переразметить выборку, то влияние ошибочных данных на результат обучения будет сведено к минимуму."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Учитывая, что последний вариант имеет наибольшее количество преимуществ и мы не ищем лёгких путей, остановимся именно на нём."}},{"type":"header2","data":{"level":2,"text":"Как найти в выборке неверно размеченные объекты?"}},{"type":"paragraph","data":{"text":"Качество финальной модели зависит от двух вещей: от качества исходных данных (в частности — их разметки) и возможностей/настройки выбранной модели. В нашем случае основной упор делается на качество данных, поэтому заниматься оптимизацией характеристик моделей мы не будем. Однако это не повод этого не делать! Чтобы переразметить данные, нам понадобится:"}},{"type":"list","data":{"items":["исходная выборка с «неверной» разметкой,","несколько разных по архитектуре методов машинного обучения,","время и высокие мощности вашего железа."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Допустим, исходные данные выглядят следующим образом. Здесь X={x1,x2,…, xn} — вектор признаков, описывающих каждого игрока, а y — целевая переменная, соответствующая тому, участвовал игрок в событии или нет (1 — участвовал, 0 — не участвовал соответственно)."}},{"type":"code","data":{"code":"import pandas as pd\r\nimport numpy as np\r\n\r\ndata = pd.read_csv('../data.csv')\r\ndata.head(n=10)","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125139,"url":"https://media.tproger.ru/uploads/2020/02/image16.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":484,"height":207,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image16.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 4","dimensions":{"width":484,"height":207},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/wOdLpHQv88CjMpHInsWNp9_NFn-Az-pwguS3j90GgNY/rs:fill:484:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":484},{"url":"https://tproger.ru/signed_image/zMad4xikde7HNNmU7HtuoHDtVBSHroubf1pY6d3R_nU/rs:fill:968:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":968},{"url":"https://tproger.ru/signed_image/wOdLpHQv88CjMpHInsWNp9_NFn-Az-pwguS3j90GgNY/rs:fill:484:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":484},{"url":"https://tproger.ru/signed_image/zMad4xikde7HNNmU7HtuoHDtVBSHroubf1pY6d3R_nU/rs:fill:968:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":968},{"url":"https://tproger.ru/signed_image/wOdLpHQv88CjMpHInsWNp9_NFn-Az-pwguS3j90GgNY/rs:fill:484:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":484},{"url":"https://tproger.ru/signed_image/zMad4xikde7HNNmU7HtuoHDtVBSHroubf1pY6d3R_nU/rs:fill:968:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":968},{"url":"https://tproger.ru/signed_image/-kmlfO0UVTwVN03qZzL_DrARwSiwsEJSQ0L6r1TDRLU/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/X4G10FACv15mu2964yQvjoKtZN3mBa15tovbpguBpto/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE2LmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"484px"},{"media":"(min-width: 1281px)","size":"484px"},{"media":"(min-width: 1281px)","size":"484px"},{"media":"(min-width: 961px)","size":"484px"},{"media":"(min-width: 671px)","size":"484px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"code","data":{"code":"data.y.value_counts(normalize=True)","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125140,"url":"https://media.tproger.ru/uploads/2020/02/image17.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":139,"height":39,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image17.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 5","dimensions":{"width":139,"height":39},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/9Pib-gMgcElS34UIT6lFrcYIpX4wEXlhrfRA-fhCDeI/rs:fill:139:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":139},{"url":"https://tproger.ru/signed_image/qBV6x2JFBk78_ssMN92Pr_ueX5um9StUCwJSPlMf8Qk/rs:fill:278:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":278},{"url":"https://tproger.ru/signed_image/9Pib-gMgcElS34UIT6lFrcYIpX4wEXlhrfRA-fhCDeI/rs:fill:139:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":139},{"url":"https://tproger.ru/signed_image/qBV6x2JFBk78_ssMN92Pr_ueX5um9StUCwJSPlMf8Qk/rs:fill:278:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":278},{"url":"https://tproger.ru/signed_image/9Pib-gMgcElS34UIT6lFrcYIpX4wEXlhrfRA-fhCDeI/rs:fill:139:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":139},{"url":"https://tproger.ru/signed_image/qBV6x2JFBk78_ssMN92Pr_ueX5um9StUCwJSPlMf8Qk/rs:fill:278:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":278},{"url":"https://tproger.ru/signed_image/9Pib-gMgcElS34UIT6lFrcYIpX4wEXlhrfRA-fhCDeI/rs:fill:139:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":139},{"url":"https://tproger.ru/signed_image/qBV6x2JFBk78_ssMN92Pr_ueX5um9StUCwJSPlMf8Qk/rs:fill:278:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE3LmpwZw=","dpr":1,"width":278}],"sizes":[{"media":"(min-width: 1441px)","size":"139px"},{"media":"(min-width: 1281px)","size":"139px"},{"media":"(min-width: 1281px)","size":"139px"},{"media":"(min-width: 961px)","size":"139px"},{"media":"(min-width: 671px)","size":"139px"},{"media":"(min-width: 500px)","size":"139px"}]}}}},{"type":"paragraph","data":{"text":"Для начала обучим базовый классификатор для того, чтобы понимать качество модели на неверно размеченной выборке. В качестве классификатора выберем Random Forest и его реализацию в Sklearn."}},{"type":"code","data":{"code":"from sklearn.model_selection import train_test_split\r\nfrom sklearn.ensemble import RandomForestClassifier\r\n\r\nX_data, y_data = data.drop(['y'], axis = 1), data['y']\r\nX_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=.3, random_state=RS)\r\nclf = RandomForestClassifier(n_estimators=250, random_state=42, n_jobs=15)\r\nclf.fit(X_train, y_train)\r\ny_pred = clf.predict(X_test)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Посмотрим на качество модели: выведем матрицу ошибок и основные метрики качества."}},{"type":"code","data":{"code":"df_confusion = pd.crosstab(y_test, y_pred, rownames=['Actual'], colnames=['Predicted'], margins=True)\r\nprint(df_confusion)","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125141,"url":"https://media.tproger.ru/uploads/2020/02/image13.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":177,"height":64,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image13.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 6","dimensions":{"width":177,"height":64},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/mX8Yli1HUXUZCpmmtVuir3gOWcVanE2gPgNzGMQlRos/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/Lg1CmaJLoV8D_tkhuPHMjDm1QDRVfozj-xbz0gMCKSI/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/mX8Yli1HUXUZCpmmtVuir3gOWcVanE2gPgNzGMQlRos/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/Lg1CmaJLoV8D_tkhuPHMjDm1QDRVfozj-xbz0gMCKSI/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/mX8Yli1HUXUZCpmmtVuir3gOWcVanE2gPgNzGMQlRos/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/Lg1CmaJLoV8D_tkhuPHMjDm1QDRVfozj-xbz0gMCKSI/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/mX8Yli1HUXUZCpmmtVuir3gOWcVanE2gPgNzGMQlRos/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/Lg1CmaJLoV8D_tkhuPHMjDm1QDRVfozj-xbz0gMCKSI/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLmpwZw=","dpr":1,"width":354}],"sizes":[{"media":"(min-width: 1441px)","size":"177px"},{"media":"(min-width: 1281px)","size":"177px"},{"media":"(min-width: 1281px)","size":"177px"},{"media":"(min-width: 961px)","size":"177px"},{"media":"(min-width: 671px)","size":"177px"},{"media":"(min-width: 500px)","size":"177px"}]}}}},{"type":"code","data":{"code":"from sklearn.metrics import classification_report\r\nprint(classification_report(y_test, y_pred))","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125142,"url":"https://media.tproger.ru/uploads/2020/02/image19.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":300,"height":103,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image19.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 7","dimensions":{"width":300,"height":103},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/A-OhwCFtNejAekYx8TxrJeVj2mBRQTsPUlaxkKzZFnE/rs:fill:300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":300},{"url":"https://tproger.ru/signed_image/5rVlKJRvgfgrwhBUY-5eA1M2wHM9z0Kll9u_y_m0ITM/rs:fill:600:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":600},{"url":"https://tproger.ru/signed_image/A-OhwCFtNejAekYx8TxrJeVj2mBRQTsPUlaxkKzZFnE/rs:fill:300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":300},{"url":"https://tproger.ru/signed_image/5rVlKJRvgfgrwhBUY-5eA1M2wHM9z0Kll9u_y_m0ITM/rs:fill:600:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":600},{"url":"https://tproger.ru/signed_image/A-OhwCFtNejAekYx8TxrJeVj2mBRQTsPUlaxkKzZFnE/rs:fill:300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":300},{"url":"https://tproger.ru/signed_image/5rVlKJRvgfgrwhBUY-5eA1M2wHM9z0Kll9u_y_m0ITM/rs:fill:600:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":600},{"url":"https://tproger.ru/signed_image/A-OhwCFtNejAekYx8TxrJeVj2mBRQTsPUlaxkKzZFnE/rs:fill:300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":300},{"url":"https://tproger.ru/signed_image/5rVlKJRvgfgrwhBUY-5eA1M2wHM9z0Kll9u_y_m0ITM/rs:fill:600:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTE5LmpwZw=","dpr":1,"width":600}],"sizes":[{"media":"(min-width: 1441px)","size":"300px"},{"media":"(min-width: 1281px)","size":"300px"},{"media":"(min-width: 1281px)","size":"300px"},{"media":"(min-width: 961px)","size":"300px"},{"media":"(min-width: 671px)","size":"300px"},{"media":"(min-width: 500px)","size":"300px"}]}}}},{"type":"paragraph","data":{"text":"Видим, что качество классификации для 1-го класса, т. е. участников события, очень низкая: recall1= 0,19, а f1-score= 0,29. Средний для модели f1-score= 0,62."}},{"type":"paragraph","data":{"text":"Если бы вы не собирались делать переразметку данных, то вряд ли бы решились остаться на таких результатах, учитывая, что модель практически всех участников события отнесла к тем, кто не будет участвовать. В итоге вы бы вернулись к подсчётам базовых статистик."}},{"type":"paragraph","data":{"text":"Будем надеяться, что вы решили идти дальше. Схематично вся переразметка данных сведётся к следующему. Исходные данные разобьём на N частей с равным распределением объектов из 0-го и 1-го классов. На каждых (N-1) частях обучим 5 или более методов машинного обучения, желательно разных по архитектуре и предсказывающих вероятность. В нашем случае используем уже знакомый Random Forest, а также Logistic regression, Naive Bayes, XGBoost, CatBoost."}},{"type":"image","data":{"file":{"id":125143,"url":"https://media.tproger.ru/uploads/2020/02/image20.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1598,"height":609,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image20.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 8","dimensions":{"width":1598,"height":609},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/X_5wWJlNcj4lNOMKAL7c4LvXqZ2rwXKZEm__hqEfRME/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/FtXkx7ZVbR7BDjqQyxCtuHV-esNfryQSMmCwzhiEuC0/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/EBDkJapYV8lQJtMNkd4wP1BEfhmvuGVKs_jVWuj9RF0/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/DxRZ2JvUHA62kB19FUGdmvT1FfvNICPqR1FafrckQyU/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/-_msgz3h14LU2fQeAAZRx8Eb147KFNiPiXtuIkAJVI0/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/BzRdYCBhTLKjweWllrdUesOiEFeUoXZtca30Gk_Czy0/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/daeE7j8grOcTMuqN5j2RLkTgbGQws4gqo6JZyXzDLm0/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/Vzb62AlnNTB7jYcGshE5tHkgxM3_irqFFR_KDupQWfU/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIwLmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Для этого инициализируем модели с нужными параметрами. Параметры, к слову, уже на этом этапе лучше выбирать путем оптимизации гиперпараметров."}},{"type":"code","data":{"code":"from catboost import CatBoostClassifier\r\nfrom sklearn.naive_bayes import GaussianNB\r\nfrom sklearn.linear_model import LogisticRegression\r\nfrom xgboost import XGBClassifier\r\n\r\nclfs = {}\r\n\r\nlogreg_model = LogisticRegression(C=100)\r\nclfs['LogReg'] = {'clf': LogisticRegression(), 'name':'LogisticRegression', 'model': logreg_model}\r\n\r\nrf_model = RandomForestClassifier(n_estimators=250, max_depth=18, n_jobs=15)\r\nclfs['RandomForest'] = {'clf': RandomForestClassifier(), 'name':'RandomForest', 'model': rf_model}\r\n\r\nxgb_model = XGBClassifier(n_estimators=500, max_depth=10, learning_rate=0.1, n_jobs=15)\r\nclfs['XGB'] = {'clf': XGBClassifier(), 'name': 'XGBClassifier', 'model': xgb_model}\r\n\r\ncatb_model = CatBoostClassifier(learning_rate=0.2, iterations=500, depth=10, thread_count=15, verbose=False)\r\nclfs['CatBoost'] = {'clf': CatBoostClassifier(), 'name': 'CatBoostClassifier', 'model': catb_model}\r\n\r\nnb_model = GaussianNB()\r\nclfs['NB'] = {'clf': GaussianNB(), 'name':'GaussianNB', 'model': nb_model}","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Далее исходные данные разбиваем на 5 частей с равномерным распределением примеров 0-го и 1-го классов."}},{"type":"code","data":{"code":"data_0 = np.array_split(data[data['y'] == 0].sample(frac=1), 5)\r\ndata_1 = np.array_split(data[data['y'] == 1].sample(frac=1), 5)\r\n\r\ndfs = {i: data_0[i].append(data_1[i]) for i in range(5)}","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"И наконец, производим переразметку данных, итерируясь по каждой из 5-и частей выборки и используя для прогнозирования каждую из 5-и вышеобъявленных моделей."}},{"type":"code","data":{"code":"from sklearn.preprocessing import StandardScaler\r\n\r\nthreshold = 0.5\r\nrelabeled_data = pd.DataFrame()\r\nfor i in range(5):\r\n # test - i-й dataframe, train - все оставшиеся кроме i-го\r\n df_test = dfs[i]\r\n df_train = pd.concat([value for key, value in dfs.items() if key != i])\r\n X_train, y_train = df_train.drop(['y'], axis=1), df_train['y']\r\n X_test, y_test = df_test.drop(['y'], axis=1), df_test['y']\r\n \r\n df_w_predicts = df_test.copy()\r\n # обучение каждой модели на train и прогноз на test\r\n for value in clfs.values():\r\n model = value['model']\r\n if value['name'] in ['LogisticRegression', 'GaussianNB']:\r\n model.fit(StandardScaler().fit_transform(X_train), y_train)\r\n predicts = (model.predict_proba(StandardScaler().fit_transform(X_test)\r\n )[:, 1] >= threshold).astype(bool)\r\n else:\r\n model.fit(X_train, y_train)\r\n predicts = (model.predict_proba(X_test)[:, 1] >= threshold).astype(bool)\r\n \r\n df_w_predicts[value['name']] = predicts\r\n relabeled_data = relabeled_data.append(df_w_predicts)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"В результате переразметки каждая модель предскажет вероятность того, что игрок был участником события. Переразметка целевой переменной происходит в том случае, если все модели предсказали вероятность выше некоторого порога (threshold). В текущем примере threshold=0.5. Данные будут выглядеть следующим образом:"}},{"type":"image","data":{"file":{"id":125144,"url":"https://media.tproger.ru/uploads/2020/02/image21.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1598,"height":609,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image21.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 9","dimensions":{"width":1598,"height":609},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/5KdQMCwkA9cyg7etcAy8j-rVBTQ_m53UICfJMn-6RZU/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/tmtA44DK1AeXekWac2GBzNLN9owb2dnsVlQPQs5vRM0/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/BrG8cUwprUHNjUM_hA8ea4jhxZ-7FBlG7vz8BSZT1ik/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/fM8EP_AZ398vtpdArJPvvvhzUf2P8DwhYOMPgwM7a3A/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/eniuD59RhXzOb6KfKlwazGOQujWziOjmWdzRuxWowjQ/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/Qe5mNUDjMaAGk3hCJAwyYYHNcHBPraz799CI5Ro_cic/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/bp1V6pqvq3AOO8EI0jfy6fVzQF6eIw6qe9Y-norNBOs/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/N9Vu7rtOUEunYUnXk6FG0uFoNVJSO6nOUjg_Dq-CfoM/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIxLmpwZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Возникает логичный вопрос: как проверить качество переразметки? Как вариант, построить распределения признаков, характеризующих игроков, в разрезе реальных участников события, потенциальных участников (т. е. тех, кого мы переразметили с 0-го класса в 1-й), и не участников события. В результате вы получите следующее:"}},{"type":"image","data":{"file":{"id":125145,"url":"https://media.tproger.ru/uploads/2020/02/image22.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":643,"height":323,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image22.png","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 10","dimensions":{"width":643,"height":323},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/IrNK3lBSQn0kloGp55zPTye-6Y8JPrJiQEklU0Bjqy0/rs:fill:643:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":643},{"url":"https://tproger.ru/signed_image/JDsAclhKT4YfGI042MB5ucYxr9ejTCB9uK888ZlvbPw/rs:fill:1286:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":1286},{"url":"https://tproger.ru/signed_image/IrNK3lBSQn0kloGp55zPTye-6Y8JPrJiQEklU0Bjqy0/rs:fill:643:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":643},{"url":"https://tproger.ru/signed_image/JDsAclhKT4YfGI042MB5ucYxr9ejTCB9uK888ZlvbPw/rs:fill:1286:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":1286},{"url":"https://tproger.ru/signed_image/zipo5cQpD2naQ4fhjlqfman_wpBgZ_Is-KObXbRaVvY/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/oThzkRnDxLC6vr_7SC0Bk3QMeHonirijTCtwQ_WWUCE/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/R025Qtu_8Larw5vQYdUvB4-tzeMYuiV5tqcV1yHh4go/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/rY_Q9uQ7P5Hzwm_aT75iEkPAOa-30iJb4ExDuqqM0rc/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIyLnBuZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"643px"},{"media":"(min-width: 1281px)","size":"643px"},{"media":"(min-width: 1281px)","size":"643px"},{"media":"(min-width: 961px)","size":"643px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"image","data":{"file":{"id":125147,"url":"https://media.tproger.ru/uploads/2020/02/image23-1.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":635,"height":311,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image23-1.png","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 11","dimensions":{"width":635,"height":311},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/AoK0rcbdhD6AA5jH6OxjwgJl0m_bX-ehAMrqYYxgh2M/rs:fill:635:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":635},{"url":"https://tproger.ru/signed_image/fo46T1Bx39BfSGcab1PizAuPo7iwCfJcFQcPOTdS_uc/rs:fill:1270:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":1270},{"url":"https://tproger.ru/signed_image/AoK0rcbdhD6AA5jH6OxjwgJl0m_bX-ehAMrqYYxgh2M/rs:fill:635:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":635},{"url":"https://tproger.ru/signed_image/fo46T1Bx39BfSGcab1PizAuPo7iwCfJcFQcPOTdS_uc/rs:fill:1270:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":1270},{"url":"https://tproger.ru/signed_image/AoK0rcbdhD6AA5jH6OxjwgJl0m_bX-ehAMrqYYxgh2M/rs:fill:635:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":635},{"url":"https://tproger.ru/signed_image/fo46T1Bx39BfSGcab1PizAuPo7iwCfJcFQcPOTdS_uc/rs:fill:1270:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":1270},{"url":"https://tproger.ru/signed_image/TF27eD19uo8CS5xY6cVzBRKR4fW7JVjWYcDf_P1WW-w/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/wfOwuSd2IQErDmbSPrvKb4n73NvLHQhA4dOVQhOrPPw/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTIzLTEucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"635px"},{"media":"(min-width: 1281px)","size":"635px"},{"media":"(min-width: 1281px)","size":"635px"},{"media":"(min-width: 961px)","size":"635px"},{"media":"(min-width: 671px)","size":"635px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"image","data":{"file":{"id":125148,"url":"https://media.tproger.ru/uploads/2020/02/image24.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":633,"height":317,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image24.png","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 12","dimensions":{"width":633,"height":317},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/qnmahcpD9qkWF4ZxhpR0_uH7GGE3ctiCYqX-0zFSCHQ/rs:fill:633:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":633},{"url":"https://tproger.ru/signed_image/frEW4hIN3x4-bRXcpuOm2k32vqOj9kgNrYJeB-2m1TQ/rs:fill:1266:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":1266},{"url":"https://tproger.ru/signed_image/qnmahcpD9qkWF4ZxhpR0_uH7GGE3ctiCYqX-0zFSCHQ/rs:fill:633:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":633},{"url":"https://tproger.ru/signed_image/frEW4hIN3x4-bRXcpuOm2k32vqOj9kgNrYJeB-2m1TQ/rs:fill:1266:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":1266},{"url":"https://tproger.ru/signed_image/qnmahcpD9qkWF4ZxhpR0_uH7GGE3ctiCYqX-0zFSCHQ/rs:fill:633:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":633},{"url":"https://tproger.ru/signed_image/frEW4hIN3x4-bRXcpuOm2k32vqOj9kgNrYJeB-2m1TQ/rs:fill:1266:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":1266},{"url":"https://tproger.ru/signed_image/AZ9QpvXbjyho-7yBdTCAAS8jt7Ew2MTzZWOYfFvO37o/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/iZOQwDHUAeJakm1z8ETZIeatuajnWG9qhEWqsRCx3lo/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI0LnBuZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"633px"},{"media":"(min-width: 1281px)","size":"633px"},{"media":"(min-width: 1281px)","size":"633px"},{"media":"(min-width: 961px)","size":"633px"},{"media":"(min-width: 671px)","size":"633px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"image","data":{"file":{"id":125149,"url":"https://media.tproger.ru/uploads/2020/02/image25.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":628,"height":323,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image25.png","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 13","dimensions":{"width":628,"height":323},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/Hmv-ScpugXaAfubh-JXgfiWow2nymO9kxznCfW4bLU8/rs:fill:628:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":628},{"url":"https://tproger.ru/signed_image/C14JGmi8-jVuEdQRA8vwOjy5rjr_-Jbe-ojfCBKTXjY/rs:fill:1256:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":1256},{"url":"https://tproger.ru/signed_image/Hmv-ScpugXaAfubh-JXgfiWow2nymO9kxznCfW4bLU8/rs:fill:628:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":628},{"url":"https://tproger.ru/signed_image/C14JGmi8-jVuEdQRA8vwOjy5rjr_-Jbe-ojfCBKTXjY/rs:fill:1256:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":1256},{"url":"https://tproger.ru/signed_image/Hmv-ScpugXaAfubh-JXgfiWow2nymO9kxznCfW4bLU8/rs:fill:628:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":628},{"url":"https://tproger.ru/signed_image/C14JGmi8-jVuEdQRA8vwOjy5rjr_-Jbe-ojfCBKTXjY/rs:fill:1256:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":1256},{"url":"https://tproger.ru/signed_image/Fh6RMjoNUP_u_ZcDQiXRN17YsiUkOwvjDYeElSVCxZ4/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/sw1_uUQHNnSi-DPzlzm84OZhGmzVcQlTgp20iobHQUM/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTI1LnBuZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"628px"},{"media":"(min-width: 1281px)","size":"628px"},{"media":"(min-width: 1281px)","size":"628px"},{"media":"(min-width: 961px)","size":"628px"},{"media":"(min-width: 671px)","size":"628px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Отчётливо видно, что распределения основных метрик потенциальных участников (в прошлом «не участников») практически совпадают с распределениями реальных участников."}},{"type":"paragraph","data":{"text":"Снова обучаем Random Forest, чтобы сравнить качества моделей до и после переразметки. Также полученную модель уже можно использовать для прогнозирования участия новых игроков в следующем событии."}},{"type":"code","data":{"code":"relabeled_data.drop(['y_old'], axis=1, inplace=True)\r\nX_data, y_data = relabeled_data.drop(['y_new'], axis = 1), relabeled_data['y_new']\r\nX_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=.3, random_state=42)\r\nclf = RandomForestClassifier(n_estimators=250, random_state=42, n_jobs=15)\r\nclf.fit(X_train, y_train)\r\ny_pred = clf.predict(X_test)\r\n\r\ndf_confusion = pd.crosstab(y_test, y_pred, rownames=['Actual'], colnames=['Predicted'], margins=True)\r\nprint(df_confusion)","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125150,"url":"https://media.tproger.ru/uploads/2020/02/image13-1.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":177,"height":64,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image13-1.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 14","dimensions":{"width":177,"height":64},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/T2p5yk2vbNzFrSVBPxTWpNp0mnnrCEayJyfzspD7ga4/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/pwgGGYMJjzx9WHK55Z0uS3Xrc73lao586gjJPKftnps/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/T2p5yk2vbNzFrSVBPxTWpNp0mnnrCEayJyfzspD7ga4/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/pwgGGYMJjzx9WHK55Z0uS3Xrc73lao586gjJPKftnps/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/T2p5yk2vbNzFrSVBPxTWpNp0mnnrCEayJyfzspD7ga4/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/pwgGGYMJjzx9WHK55Z0uS3Xrc73lao586gjJPKftnps/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":354},{"url":"https://tproger.ru/signed_image/T2p5yk2vbNzFrSVBPxTWpNp0mnnrCEayJyfzspD7ga4/rs:fill:177:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":177},{"url":"https://tproger.ru/signed_image/pwgGGYMJjzx9WHK55Z0uS3Xrc73lao586gjJPKftnps/rs:fill:354:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEzLTEuanBn","dpr":1,"width":354}],"sizes":[{"media":"(min-width: 1441px)","size":"177px"},{"media":"(min-width: 1281px)","size":"177px"},{"media":"(min-width: 1281px)","size":"177px"},{"media":"(min-width: 961px)","size":"177px"},{"media":"(min-width: 671px)","size":"177px"},{"media":"(min-width: 500px)","size":"177px"}]}}}},{"type":"code","data":{"code":"print(classification_report(y_test, y_pred))","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":125151,"url":"https://media.tproger.ru/uploads/2020/02/image12.jpg"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":298,"height":106,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2020/02/image12.jpg","alt":"Как специалисту по Data Science написать классификатор, если часть данных неверно размечена 15","dimensions":{"width":298,"height":106},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/OBupTFqy8zE2hmkSW3COlpqkspS9XTfrOuZcbxdWbRk/rs:fill:298:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":298},{"url":"https://tproger.ru/signed_image/iUJqaKWWlpfrnkfri_R_OK9o0ykcrfqIKinNJKkSLkI/rs:fill:596:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":596},{"url":"https://tproger.ru/signed_image/OBupTFqy8zE2hmkSW3COlpqkspS9XTfrOuZcbxdWbRk/rs:fill:298:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":298},{"url":"https://tproger.ru/signed_image/iUJqaKWWlpfrnkfri_R_OK9o0ykcrfqIKinNJKkSLkI/rs:fill:596:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":596},{"url":"https://tproger.ru/signed_image/OBupTFqy8zE2hmkSW3COlpqkspS9XTfrOuZcbxdWbRk/rs:fill:298:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":298},{"url":"https://tproger.ru/signed_image/iUJqaKWWlpfrnkfri_R_OK9o0ykcrfqIKinNJKkSLkI/rs:fill:596:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":596},{"url":"https://tproger.ru/signed_image/OBupTFqy8zE2hmkSW3COlpqkspS9XTfrOuZcbxdWbRk/rs:fill:298:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":298},{"url":"https://tproger.ru/signed_image/iUJqaKWWlpfrnkfri_R_OK9o0ykcrfqIKinNJKkSLkI/rs:fill:596:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAyMC8wMi9pbWFnZTEyLmpwZw=","dpr":1,"width":596}],"sizes":[{"media":"(min-width: 1441px)","size":"298px"},{"media":"(min-width: 1281px)","size":"298px"},{"media":"(min-width: 1281px)","size":"298px"},{"media":"(min-width: 961px)","size":"298px"},{"media":"(min-width: 671px)","size":"298px"},{"media":"(min-width: 500px)","size":"298px"}]}}}},{"type":"paragraph","data":{"text":"Видим, что качество классификации, f1-score, вырос до 0.84, т. е. на 35%! Также теперь recall1= 0,64, при этом мы не потеряли в recall0. А значит, мы начали гораздо правильнее классифицировать потенциальных участников события."}},{"type":"embed","data":{"link":"https://tproger.ru/translations/machine-learning-beginners-guide"}},{"type":"header2","data":{"level":2,"text":"Что дальше?"}},{"type":"paragraph","data":{"text":"Я рассказала об одном из вариантов повышения качества исходных данных. Чтобы улучшить финальный алгоритм классификации, можно ещё поэкспериментировать:"}},{"type":"list","data":{"items":["Финальный метод классификации. Кроме Random Forest можно попробовать другие методы. Также нужно провести оптимизацию гиперпараметров алгоритма и порогового значения вероятности, при котором модель относит объект к 1-му классу.","Пороговое значение вероятности для переразметки. В нашем примере это значение 0.5. Его можно «двигать» в обе стороны в зависимости от результата, который вы хотите получить: переразметить как можно больше или как можно меньше игроков. В целом,при выборке порогового значения нужно, в первую очередь, руководствоваться здравым смыслом, каким-либо референсом (если он, конечно, есть) и, как было продемонстрировано, используя сравнения распределений основных метрик в фактическом и переразмеченном классах.","Попробовать другой подход к переразметке выборки. На просторах интернета можно найти реализации переразметки выборки основанные, к примеру, на сегментации. Изначально решается задача обучения без учителя, все данные делятся на сегменты. После этого, каждому сегменту присваивается метка класса, которая наиболее часто встречается среди объектов в данном сегменте. Таким образом, объекты с меткой, отличной от присвоенной, будут являться переразмеченными."],"style":"unordered"}},{"type":"paragraph","data":{"text":"Надеюсь, в вашей работе такие ситуации будут встречаться очень редко, но если и будут, то данный материал окажется вам полезным!"}},{"type":"embed","data":{"link":"https://tproger.ru/curriculum/data-scientist-curriculum"}}]}

Ошибка в настройках сайта