{"blocks":[{"type":"paragraph","data":{"text":"В этой статье мы познакомимся с парсингом сайтов (web scraping), который можно использовать, например, для пополнения базы email-адресов, создания сводки новостных лент, сравнения цен на один продукт среди нескольких коммерческих ресурсов или извлечения данных из поисковых машин."}},{"type":"paragraph","data":{"text":"Мы рассмотрим парсинг через API сайтов — такой подход достаточно прост и не требует парсинга всей страницы. Он может не работать, если владельцами ресурса установлены специальные настройки, но в большинстве случаев является неплохим решением."}},{"type":"header2","data":{"level":2,"text":"Как это работает?"}},{"type":"paragraph","data":{"text":"Примерно так: парсер посылает странице get-запрос, получает данные в виде HTML / XML и извлекает их в желаемом формате. Для загрузки файлов через консоль подходит утилита WGET, но можно выбрать и любой другой подходящий инструмент на просторах Сети."}},{"id":"0b9ab64b-0201-4ec8-b19a-b38e413913a4","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Мы будем использовать написанный для Node.js программный пакет osmosis, включающий селектор css3/xpath и небольшой http-обработчик. Есть и другие фреймворки вроде Webdriver и CasperJS, но в данном случае они нам не понадобятся."}},{"type":"header2","data":{"level":2,"text":"Настраиваем проект"}},{"type":"list","data":{"items":["Устанавливаем Node.js, поставляемый с менеджером пакетов npm.","Создаём новую папку, например, webscrap.","Переходим в неё: cd webscrap.","Запускаем из консоли npm init для создания файла package.json.","Запускаем npm i osmosis --save, чтобы установить пакет для парсинга. Дополнительных зависимостей, кроме как от обработчика и селектора, у него не будет.","Открываем package.json и создаём новый стартовый скрипт для последующего запуска команды npm start."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Итоговый package.json будет выглядеть примерно так:"}},{"type":"code","data":{"code":"{\r\n \"name\": \"webscrap\",\r\n \"version\": \"1.0.0\",\r\n \"main\": \"index.js\",\r\n \"scripts\": {\r\n \"start\": \"node index\"\r\n },\r\n \"dependencies\": {\r\n \"osmosis\": \"^1.1.2\"\r\n }\r\n}","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Создаём файл index.js, в нём будем делать всю работу."}},{"type":"header2","data":{"level":2,"text":"Парсим информативный заголовок в Google"}},{"type":"paragraph","data":{"text":"Это самый базовый пример, с помощью которого мы познакомимся с пакетом и запустим первый Node-скрипт. Помещаем код ниже в файл index.js и запускаем из консоли команду npm start. Она выведет заголовок веб-страницы:"}},{"type":"code","data":{"code":"const osmosis = require('osmosis');\r\nosmosis\r\n .get('www.google.com')\r\n .set({'Title': 'title'}) // альтернатива: `.find('title').set('Title')`\r\n .data(console.log) // выведет {'Title': 'Google'}","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Разберём, что делают методы. Первый метод get получает веб-страницу в сжатом формате. Следующий метод set выберет элемент заголовка, представленный в виде css3-селектора. Наконец, метод data с console.log обеспечивают вывод. Метод set также принимает строки в качестве аргумента."}},{"type":"header2","data":{"level":2,"text":"Получаем релевантные результаты в Google"}},{"type":"paragraph","data":{"text":"Допустим, мы хотим получить результаты по ключевому слову analytics. Делаем следующее:"}},{"type":"code","data":{"code":"osmosis\r\n .get('https://www.google.co.in/search?q=analytics')\r\n .find('#botstuff')\r\n .set({'related': ['.card-section .brs_col p a']})\r\n .data(function(data) {\r\n console.log(data);\r\n })","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Вот и всё. Этот код извлечёт все соответствующие ключевые слова с первой страницы результатов поиска, поместит их в массив и запишет в лог в консоли. Логика, стоящая за этим, такова: мы сначала анализируем веб-страницу через инструменты разработчика, проверяем блок, в котором находится слово (в данном случае это div #botstuff), и сохраняем его в массив через селектор .card-section .brs_col p a, который найдёт все соответствующие ключевые слова на странице."}},{"type":"header2","data":{"level":2,"text":"Увеличиваем количество страниц при релевантном поиске"}},{"type":"paragraph","data":{"text":"Для этого нужно добавить цепочку вызовов (chaining method), вычислив атрибут href у тега anchor (<a>). Мы ограничимся пятью страницами, чтобы Google не посчитал нас за бот. Если необходимо выставить время между парсингом соседних страниц, добавляем метод .delay(ms) после каждого .paginate()."}},{"type":"code","data":{"code":"osmosis\r\n .get('https://www.google.co.in/search?q=analytics')\r\n .paginate('#navcnt table tr > td a[href]', 5)\r\n .find('#botstuff')\r\n .set({'related': ['.card-section .brs_col p a']})\r\n .data(console.log)\r\n .log(console.log) // включить логи\r\n .error(console.error) // на случай нахождения ошибки","language":"clike lazy-code"}},{"type":"header2","data":{"level":2,"text":"Парсим адреса электронной почты с сайта Shopify"}},{"type":"paragraph","data":{"text":"В данном случае мы будем собирать email-адреса и названия всех приложений, последовательно перемещаясь с помощью метода .follow, и потом помечать необходимые селекторы в консоли разработчика:"}},{"type":"code","data":{"code":"osmosis\r\n .get('http://apps.shopify.com/categories/sales')\r\n .find('.resourcescontent ul.app-card-grid')\r\n .follow('li a[href]')\r\n .find('.resourcescontent')\r\n .set({\r\n 'appname': '.app-header__details h1',\r\n 'email': '#AppInfo table tbody tr:nth-child(2) td > a'\r\n })\r\n .log(console.log) // включить логи\r\n .data(console.log)","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Код выше можно скомбинировать с методом .paginate, чтобы собрать полностью весь контент (но при этом нас могут и заблокировать)."}},{"type":"paragraph","data":{"text":"Теперь нужно сохранить данные в файле, сделать это можно так (пример модификации кода выше, сохранение в формате json):"}},{"type":"code","data":{"code":"const fs = require('fs');\r\nlet savedData = [];\r\nosmosis\r\n .get(..).find(..).follow(..).find(..)\r\n .set(..)\r\n .log(console.log)\r\n .data(function(data) {\r\n console.log(data);\r\n savedData.push(data);\r\n })\r\n .done(function() {\r\n fs.writeFile('data.json', JSON.stringify( savedData, null, 4), function(err) {\r\n if(err) console.error(err);\r\n else console.log('Data Saved to data.json file');\r\n })\r\n });","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Вот мы и закончили с основами, продолжайте экспериментировать. Но, пожалуйста, не используйте полученные знания во вред другим пользователям Сети."}}]}

Ошибка в настройках сайта