{"blocks":[{"type":"paragraph","data":{"text":"Наша подборка будет разбита на две части — первые 8 библиотек предназначены для предварительной обработки и очистки данных от мусора, следующие 10 — для визуализации подготовленных данных."}},{"type":"header3","data":{"level":3,"text":"Библиотеки для форматирования и очистки данных"}},{"type":"paragraph","data":{"text":"В нашем мире всё запутано и переплетено — то же самое можно сказать и об информации. Недавнее исследование показывает, что очистка данных занимает до 60% времени у специалистов по Data Scienсe. И 57% из них считают, что это самая утомляющая часть работы. Чтобы сделать этот процесс более приятным и быстрым, существует множество библиотек, о которых мы вам и расскажем."}},{"type":"header4","data":{"level":4,"text":"Dora"}},{"type":"paragraph","data":{"text":"Эта библиотека предназначена для разведочного анализа данных, а именно — для автоматизации самых болезненных его частей, в том числе и для очистки данных — говорящий пример её работы можно посмотреть на странице проекта на Github."}},{"type":"header4","data":{"level":4,"text":"Datacleaner"}},{"type":"paragraph","data":{"text":"Этот проект также может принимать на вход данные в DataFrame (как утверждает разработчик, “datacleaner — не что-то магическое, просто взять необработанный текст и автоматически распарсить его он не может”), и затем выбирает строки с пропущенными или некорректными значениями и исправляет их таким образом, каким вы ему скажете (например, заменяет их на средние или медианные значения)."}},{"type":"header4","data":{"level":4,"text":"PrettyPandas"}},{"type":"paragraph","data":{"text":"DataFrames, конечно, сильный инструмент, но он создаёт не те таблицы, которые вы бы хотели показать своему боссу. PrettyPandas использует pandas Style API, чтобы привести датафреймы в удобоваримый вид."}},{"type":"header4","data":{"level":4,"text":"Tabulate"}},{"type":"paragraph","data":{"text":"Tabulate позволяет выводить в удобном виде списки списков (или другие iterable структуры из iterable структур), списки (или другие структуры) из словарей), двумерные массивы NumPy, pandas.DataFrame и массивы записей NumPy. Причём выгружать он их может не только в консоль, но и в HTML, PHP или Markdown Extra, что является очень приятным дополнением."}},{"type":"header4","data":{"level":4,"text":"Scrubadub"}},{"type":"paragraph","data":{"text":"Часто приходится обрабатывать конфиденциальные данные, выдавать которые не стоит (например, если вы работаете в сфере здравоохранения или в сфере финансов). На помощь приходит scrubadub, которая может удалять из списка данных имена, телефоны, URL’и, идентификаторы Skype и многое другое. Естественно, присутствует возможность гибкой настройки того, что именно вы хотите убрать и каким образом."}},{"type":"header4","data":{"level":4,"text":"Arrow"}},{"type":"paragraph","data":{"text":"Отдельной проблемой для нативного Python является работа с временем. Нужно парсить строки, учитывать часовые пояса, и на всё это уходят многие строки не очень интересного кода. Эту проблему должна решить библиотека Arrow."}},{"type":"header4","data":{"level":4,"text":"Beautifier"}},{"type":"paragraph","data":{"text":"У этой библиотеки довольно простая задача — упростить работу с URL’ами и email-адресами. С её помощью вы можете парсить почтовые адреса по доменами и именам пользователей, а URL-адреса — по доменам и различным параметрам (например, UTM’ам или токенам)."}},{"type":"header4","data":{"level":4,"text":"Ftfy"}},{"type":"paragraph","data":{"text":"Полное название этой библиотеки — Fixes text for you. Она предназначена для того, чтобы превращать плохие Unicode строки (â€œquotesâ€\\x9d или uÌˆ) в хорошие Unicode строки ("quotes" или ü соответственно)."}},{"type":"separator","data":{"text":"***"}},{"type":"header3","data":{"level":3,"text":"Библиотеки для визуализации данных"}},{"type":"paragraph","data":{"text":"Если просматривать страницы Python Package Index, можно найти библиотеки практически для любого отображения данных, от GazeParser‘а для отслеживания движения глаз, до pastalog‘а для отображения развития нейронной сети в реальном времени. Некоторые из этих библиотек крайне узкоспециализированы, а некоторые могут использоваться почти для любой задачи. В этой подборке мы приводим 10 достаточно универсальных Python библиотек для отображения данных."}},{"type":"header4","data":{"level":4,"text":"Matplotlib"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Matplotlib за более чем 10 лет своего существования уже фактически стала стандартом визуализации на Python. Многие современные библиотеки для построения графиков проектируются для работы совместно с matplotlib. Некоторые библиотеки, например, pandas или Seaborn, представляют из себя обёртки над matplotlib. Однако вместе с широтой возможностей приходит и сложность в устройстве, и, как следствие, работать с библиотекой тоже не всегда легко. Ещё один минус — оформление в духе 90-х, которое явно не подойдёт для презентаций. Последнее, однако, должен решить релиз 2.0."}},{"type":"header4","data":{"level":4,"text":"Seaborn"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Как уже было сказано выше, Seaborn — обёртка над matplotlib, привносящая в неё улучшения (главным образом в плане эстетики)."}},{"type":"header4","data":{"level":4,"text":"Ggplot"}},{"type":"image","data":{"file":{"id":21085,"url":"https://media.tproger.ru/uploads/2016/09/viz-libraries-03.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":3300,"height":2400,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2016/09/viz-libraries-03.png","alt":"18 полезных библиотек для анализа данных в Python 1","dimensions":{"width":3300,"height":2400},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/YKes9ro5zR1fI5Ero2ydWuP_Ki39pQcy5w1FA94zX74/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/VjabxwEGMOSKaC2XbAsJRI9fP2myh8ZGX43CZMkWWo8/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/507sbetVQ_AkPvRdWxybjzphwp2N_PdLLvMK7qG5wcE/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/bbPiLmWLWWO88M4ZszatwsebICwjInVtvl9S1ScAWto/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/QDXYAeuQwZMM2YPOGlYiTgxGG9lRhKN4VY9hhbU7bEE/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/HUOn9HMiFoSm50alNdSeNUhHzfUi8-XK2KoBHxx-T2c/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/Ypjc1ro700jveqOvz3S4RFg5MqM23mq60nslzzIRjcU/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/2UmKqCCk7FNYbAxcdrmYv_WQSytZJ-1wWv9fQtCOyQM/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNi8wOS92aXotbGlicmFyaWVzLTAzLnBuZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Ggplot базируется на ggplot2 (система построения графиков на языке R) и использует принципы Grammar of Graphics. Как следствие, работа с ней сильно отличается от работы с matplotlib. Если верить автору, библиотека не предназначена для создания сложных персонализированных графиков, а ориентирована скорее на простоту."}},{"type":"header4","data":{"level":4,"text":"Bokeh"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Bokeh также использует Grammar of Graphics, однако, в отличии от ggplot, он не портирован с R, а написан на самом Python. Библиотека поддерживает выгрузку в виде объектов JSON, в HTML-документы или интерактивные веб-приложения, равно как и поддерживает передачу данных в реальном времени и в виде потоков."}},{"type":"header4","data":{"level":4,"text":"Pygal"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Из основных преимуществ этой библиотеки можно выделить предельную простоту, возможность выгрузки данных в SVG-файлы (аккуратно, при больших объёмах данных SVG, пожалуй, не стоит использовать из-за проблем производительности) и возможность встраивать результат работы в веб-приложения."}},{"type":"header4","data":{"level":4,"text":"Plotly"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Так же, как Pygal и Bokeh, Plotly адаптирован для работы в интерактивных веб-приложениях. Его уникальные возможности — контурные графики, дендограммы и 3D чертежи."}},{"type":"header4","data":{"level":4,"text":"Geoplotlib"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Как можно догадаться из названия, Geoplotlib предназначена для работы с картами. Для её работы необходим Pyglet (объектно-ориентированный интерфейс). Так как практически ни одна из остальных библиотек не предлагает API для работы с картами, очень приятно иметь ту, которая специально заточена под них."}},{"type":"header4","data":{"level":4,"text":"Gleam"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Эта библиотека была написана под вдохновением от пакета Shiny для языка R. Она позволяет превращать результаты анализа данных в интерактивные веб-приложения, используя только Python скрипты, т.е. вам не нужно знать ни HTML, ни CSS, ни JavaScript. Gleam может работать совместно с любой библиотекой визуализации Python. Создав график, вы можете подключить к нему поля для фильтров, чтобы пользователи могли сортировать и отбирать данные, которые им необходимы."}},{"type":"header4","data":{"level":4,"text":"Missingno"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Если библиотеки для очистки входных данных от пропущенных полей (путём удаления таких записей целиком, или подстановки средних/медианных значений) вам не подходят, то вы можете легко визуализировать полноту данных с помощью Missingno. Библиотека может не только визуализировать данные, но и сортировать их или отбирать в зависимости от корреляций с, скажем, дендограммами."}},{"type":"header4","data":{"level":4,"text":"Leather"}},{"type":"paragraph","data":{"text":""}},{"type":"paragraph","data":{"text":"Создатель Leather, Кристофер Гроскопф, удачно описал своё творение: “Leather — чертёжная библиотека для Python для тех, кому нужен график прямо сейчас, и его не волнует насколько он идеален”. Он спроектирован для работы со всеми типами данных и выводит данные в SVG, благодаря чему вы можете масштабировать графики без потери качества (к слову, у нас есть отличная статья о векторных и битовых форматах изображений). Библиотека достаточно новая, поэтому к ней всё ещё отсутствует часть документации. Чертежи с её помощью можно сделать достаточно примитивные, но это только начало ?"}},{"type":"separator","data":{"text":"***"}},{"type":"paragraph","data":{"text":"Возможно, вам также покажется полезной наша подборка “10 малоизвестных, но полезных библиотек для Python”."}}]}

Ошибка в настройках сайта