{"blocks":[{"type":"paragraph","data":{"text":"Рассказываем о том, как можно сэкономить время и нервы при автоматизации процесса получения данных с веб-сайтов без соответствующего API-интерфейса."}},{"type":"paragraph","data":{"text":"Предположим, что в поисках данных, необходимых для вашего проекта, вы натыкаетесь на такую веб-страницу:
"}},{"type":"paragraph","data":{"text":"Вот они — все необходимые данные для вашего проекта."}},{"type":"paragraph","data":{"text":"Но что же делать, если нужные вам данные находятся на сайте, который не предоставляет API для их получения? Конечно же, можно потратить несколько часов и написать обработчик, который получит эти данные и преобразует их в нужный для вашего приложения формат."}},{"type":"paragraph","data":{"text":"Но есть и более простое решение — это библиотека Pandas и ее встроенная функция read_html(), которая предназначена для получения данных с html-страниц."}},{"type":"code","data":{"code":"import pandas as pd\r\n\r\ntables = pd.read_html(\"http://apps.sandiego.gov/sdfiredispatch/\")\r\n\r\nprint(tables[0])","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Прим. перев. В данной статье используется версия Pandas 0.20.3"}},{"type":"paragraph","data":{"text":"Да, все настолько просто. Pandas находит html-таблицы на странице и возвращает их как новый объект DataFrame."}},{"type":"paragraph","data":{"text":"Теперь попробуем указать Pandas, что первая (а точнее нулевая) строка таблицы содержит заголовки столбцов, а также попросим ее сформировать datetime-объект из строки, находящейся в столбце с датой и временем."}},{"type":"code","data":{"code":"import pandas as pd\r\n\r\ncalls_df, = pd.read_html(\"http://apps.sandiego.gov/sdfiredispatch/\", header=0, parse_dates=[\"Call Date\"])\r\n\r\nprint(calls_df)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"На выходе мы получим следующий результат:"}},{"type":"code","data":{"code":"Call Date Call Type Street Cross Streets Unit\r\n0 2017-06-02 17:27:58 Medical HIGHLAND AV WIGHTMAN ST/UNIVERSITY AV E17\r\n1 2017-06-02 17:27:58 Medical HIGHLAND AV WIGHTMAN ST/UNIVERSITY AV M34\r\n2 2017-06-02 17:23:51 Medical EMERSON ST LOCUST ST/EVERGREEN ST E22\r\n3 2017-06-02 17:23:51 Medical EMERSON ST LOCUST ST/EVERGREEN ST M47\r\n4 2017-06-02 17:23:15 Medical MARAUDER WY BARON LN/FROBISHER ST E38\r\n5 2017-06-02 17:23:15 Medical MARAUDER WY BARON LN/FROBISHER ST M41","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Теперь все эти данные находятся в DataFrame-объекте. Если же нам нужны данные в формате json, добавим еще одну строчку кода:"}},{"type":"code","data":{"code":"import pandas as pd\r\n\r\ncalls_df, = pd.read_html(\"http://apps.sandiego.gov/sdfiredispatch/\", header=0, parse_dates=[\"Call Date\"])\r\n\r\nprint(calls_df.to_json(orient=\"records\", date_format=\"iso\"))","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"В результате вы получите данные в формате json с правильным форматированием даты по стандарту ISO 8601:"}},{"type":"code","data":{"code":"[\r\n {\r\n \"Call Date\": \"2017-06-02T17:34:00.000Z\",\r\n \"Call Type\": \"Medical\",\r\n \"Street\": \"ROSECRANS ST\",\r\n \"Cross Streets\": \"HANCOCK ST/ALLEY\",\r\n \"Unit\": \"M21\"\r\n },\r\n {\r\n \"Call Date\": \"2017-06-02T17:34:00.000Z\",\r\n \"Call Type\": \"Medical\",\r\n \"Street\": \"ROSECRANS ST\",\r\n \"Cross Streets\": \"HANCOCK ST/ALLEY\",\r\n \"Unit\": \"T20\"\r\n },\r\n {\r\n \"Call Date\": \"2017-06-02T17:30:34.000Z\",\r\n \"Call Type\": \"Medical\",\r\n \"Street\": \"SPORTS ARENA BL\",\r\n \"Cross Streets\": \"CAM DEL RIO WEST/EAST DR\",\r\n \"Unit\": \"E20\"\r\n }\r\n // и т.д.\r\n]","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"При желании данные можно сохранить в CSV или XLS:"}},{"type":"code","data":{"code":"import pandas as pd\r\n\r\ncalls_df, = pd.read_html(\"http://apps.sandiego.gov/sdfiredispatch/\", header=0, parse_dates=[\"Call Date\"])\r\n\r\ncalls_df.to_csv(\"calls.csv\", index=False)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Выполните код и откройте файл calls.csv. Он откроется в приложении для работы с таблицами:"}},{"type":"image","data":{"file":{"id":45009,"url":"https://media.tproger.ru/uploads/2017/07/2-3-1024x475.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1024,"height":475,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2017/07/2-3-1024x475.png","alt":"Получение данных c веб-сайта без API в 3 строки кода на Python 1","dimensions":{"width":1024,"height":475},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/FYABkDxSuLZzckyDOzNADkcscCJyki-mCXd6leeAxxM/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/UFjw0-0o-q9Dp__l6c6EPYMxsGV8WJDQtFpPtsTOcCY/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/PWJvo6PrONxkwqT-gsjff6KW3ZL6abIkMLlZTfOiJAI/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/e1FZBua8g0LukI2K7hKMWhDQvjYiHN8TqIUwAH6dr6s/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/Nz1wYXTK52h2oJ34AGfcsgSzvCHVXfzhMHRStu8rw_I/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/abPdez1Qe09AAI92BNFJnae0L359-_qVC4lL55xu25Y/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/UQS_yqmoBKMaM8HFokFXDBNn6jerSJ3Z0YHbk4u0Vec/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/ows8aawXbsqu_6ERyDHmaUEEXw04V4Nd0lyaPx8Cqpc/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNy8yLTMtMTAyNHg0NzUucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"И, конечно же, Pandas упрощает анализ:"}},{"type":"code","data":{"code":"calls_df.describe()","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Статистика запроса:"}},{"type":"code","data":{"code":"Call Date Call Type Street Cross Streets Unit\r\ncount 69 69 69 64 69\r\nunique 29 2 29 27 60\r\ntop 2017-06-02 16:59:50 Medical CHANNEL WY LA SALLE ST/WESTERN ST E1\r\nfreq 5 66 5 5 2\r\nfirst 2017-06-02 16:36:46 NaN NaN NaN NaN\r\nlast 2017-06-02 17:41:30 NaN NaN NaN NaN","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Группировку:"}},{"type":"code","data":{"code":"calls_df.groupby(\"Call Type\").count()","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Результат группировки:"}},{"type":"code","data":{"code":"Call Date Street Cross Streets Unit\r\nCall Type\r\nMedical 66 66 61 66\r\nTraffic Accident (L1) 3 3 3 3","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"И обработку данных:"}},{"type":"code","data":{"code":"calls_df[\"Unit\"].unique()","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Результат метода unique:"}},{"type":"code","data":{"code":"array(['E46', 'MR33', 'T40', 'E201', 'M6', 'E34', 'M34', 'E29', 'M30',\r\n 'M43', 'M21', 'T20', 'E20', 'M20', 'E26', 'M32', 'SQ55', 'E1',\r\n 'M26', 'BLS4', 'E17', 'E22', 'M47', 'E38', 'M41', 'E5', 'M19',\r\n 'E28', 'M1', 'E42', 'M42', 'E23', 'MR9', 'PD', 'LCCNOT', 'M52',\r\n 'E45', 'M12', 'E40', 'MR40', 'M45', 'T1', 'M23', 'E14', 'M2', 'E39',\r\n 'M25', 'E8', 'M17', 'E4', 'M22', 'M37', 'E7', 'M31', 'E9', 'M39',\r\n 'SQ56', 'E10', 'M44', 'M11'], dtype=object)","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Теперь вы знаете, как с помощью Python и Pandas можно быстро получить данные с практически любого сайта, не прилагая особых усилий. Освободившееся время предлагаем посвятить чтению других интересных материалов по Python на нашем сайте."}},{"type":"paragraph","data":{"text":" "}}]}

Ошибка в настройках сайта