{"blocks":[{"type":"paragraph","data":{"text":"Перед большинством Python-разработчиков рано или поздно встает вопрос сбора данных из сети. У дата-сайентистов, например, этот навык вообще считается само собой разумеющимся, и трудности освоения парсинговых библиотек принято проскакивать как нечто простое. На деле же легко упереться и в меняющиеся классы, и в необходимость проскочить защиту сайта."}},{"type":"paragraph","data":{"text":"В этой статье мы разберемся, как обходить защиту в виде меняющихся классов и изучим некоторые нюансы этой популярнейшей библиотеки,"}},{"type":"header2","data":{"level":2,"text":"Выбираем сайт"}},{"type":"paragraph","data":{"text":"Для гайда я выбрала ресурс otzivisotrudnikov.ru, поскольку он позволяет не только провести парсинг, но и попробовать сопутствующие действия selenium вроде ожидания появления страницы и нажатия кнопки «Загрузить еще»."}},{"type":"hint","data":{"fullWidth":true,"text":"Если вы только осваиваете скрэйперы, к сложным порталам, сопротивляющимся парсингу, пока подступаться не стоит. Среди них — все продукты Яндекса, а также Авито. Некоторые популярные площадки вроде HeadHunter, «ощутив пауков на себе», поступили демократично и создали API для выгрузки данных."}},{"type":"header2","data":{"level":2,"text":"Подготовка среды разработки"}},{"type":"paragraph","data":{"text":"Для начала импортируем необходимые библиотеки:"}},{"type":"code","data":{"code":"from selenium import webdriver;\r\nfrom selenium.webdriver.common.by import By\r\nimport os\r\nimport pandas as pd\r\nimport re\r\nimport telegram","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Загоняем инструментарий в файл requirements.txt:"}},{"type":"code","data":{"code":"selenium\r\npandas\r\npython-telegram-bot","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Создаем виртуальное окружение и устанавливаем инструменты:"}},{"type":"code","data":{"code":"python3 -m venv selenium_env\r\nsource selenium_env/bin/activate\r\npip3 install -r requirements.txt","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Я хочу наладить коллекцию пауков таким образом, чтобы новые отзывы отправлялись мне в Telegram. Для этого предстоит создать бота. Чтобы получить ключ, перейдите по адресу my.telegram.org/apps, авторизуйтесь и создайте приложение (документация). API Key лежит в поле App api_hash:"}},{"type":"code","data":{"code":"TELEGRAM_API_KEY = \"API Key\"","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Чтобы получить ID чата, добавим туда бота @RawDataBot и запустим командой /start. В ответ он отдаст массив, среди которых есть и идентификатор:"}},{"type":"code","data":{"code":"\"chat\": {\r\n \"id\": -1001200247335,\r\n ...\r\n},","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Это целочисленная переменная, знак минус тоже оставляем:"}},{"type":"code","data":{"code":"TELEGRAM_CHAT_ID = -1001200247335","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Чтобы получить токен, нужно пообщаться с @BotFather — утилитой для создания и настройки ботов. Если у вас пока нет ботов в TG, следуйте этой краткой инструкции."}},{"type":"code","data":{"code":"TELEGRAM_BOT_TOKEN = \"Bot Token\"","language":"python lazy-code"}},{"type":"hint","data":{"fullWidth":true,"text":"Когда скрейперов становится слишком много, оптимальным решением будет .env-файл. О работе с этим инструментом можно узнать больше в статье “Using .env Files for Environment Variables in Python Applications”."}},{"type":"paragraph","data":{"text":"Вы могли заметить, что некоторые сайты защищаются от DDoS-атак с помощью спецсервисов. Selenium умеет обходить такие проверки. В случае сайта «Отзывы сотрудников» достаточно подождать несколько секунд, обычно хватает пяти:"}},{"type":"code","data":{"code":"DELAY = 5","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Зададим полную ссылку на страницу:"}},{"type":"code","data":{"code":"URL = \"https://otzivisotrudnikov.ru/company/moskva/lamoda_ru_internet_magazin/\"","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Отзывов много, потому нам потребуется нажать кнопку «Больше». Чтобы это сделать, укажем число нажатий (число страниц пока проверяется вручную):"}},{"type":"code","data":{"code":"MAX_LOAD_MORE_CLICKS = 5","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Инициируем бота для отправки новых отзывов:"}},{"type":"code","data":{"code":"bot = telegram.Bot(token=TELEGRAM_BOT_TOKEN)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь настал через самого Selenium. Инициируем экземпляр веб-драйвера и передадим ему целевую ссылку:"}},{"type":"code","data":{"code":"driver = webdriver.Chrome()\r\ndriver.get(URL)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Объявим временные списки, в которых будем хранить тексты отзывов, ссылки на них и дату публикации:"}},{"type":"code","data":{"code":"reviews_lst = []\r\nurls_lst = []\r\ndates_lst = []","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Отдадим команду selenium выполнять поиск элементов на каждой странице:"}},{"type":"code","data":{"code":"count = 0\r\nwhile count <= MAX_LOAD_MORE_CLICKS:\r\n try:\r\n WebDriverWait(driver, 100)\r\n # Код извлечения и обработки элементов (будет дальше)\r\n count += 1\r\n except TimeoutException:\r\n break","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Как быстрее писать селекторы"}},{"type":"paragraph","data":{"text":"Выбор элемента в HTML — одна из сложных вещей для новичков в парсинге. Потому попробую упростить вам дальнейшую работу с помощью концепции XPath. Это язык запросов для веб-страниц, и корректность селектора можно проверить в панели разработчика Chrome:"}},{"type":"list","data":{"items":["нажимаем на любом свободном месте на веб-странице «Просмотреть код» (или комбинацией Ctrl + Shift + C / Cmd + Shift + C);","выбираем наведением мыши один отзыв со всеми интересующими элементами и копируем название класса (col-xs-10);","нажимаем комбинацию Ctrl + F / Cmd + F прямо в панели разработчика. Откроется поле поиска по селектору;","набираем //* (отсылает к всей странице на языке XPath), затем [@class=’col-xs-10′];"],"style":"unordered"}},{"type":"paragraph","data":{"text":"Посмотреть, как проверяется селектор, можно на видео."}},{"type":"paragraph","data":{"text":"Записей несколько, потому я использую метод find_elements(). Укажем класс, который предстоит найти:"}},{"type":"code","data":{"code":"full_reviews = driver.find_elements(By.XPATH, \"//*[@class='col-xs-10']\")","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь результат хранится в специальном объекте selenium-webdriver.WebElement, и чтобы извлечь из него текст, используется метод text()."}},{"type":"paragraph","data":{"text":"Звездочка, кстати, помогает справляться с меняющимися названиями классов: вы можете подставлять ее аналогично сочетанию (.*) в регулярных выражениях, и в случае "//*[@class='col-*']" она будет цеплять все объекты классов, начинающихся с col-."}},{"type":"paragraph","data":{"text":"В сниппете ниже я удаляю фразу, которая не нужна в выгрузке заказчикам проекта:"}},{"type":"code","data":{"code":"reviews_lst = []\r\nfor element in full_reviews:\r\n text = element.text.replace('Читать полностью отзыв и комментарии', '')\r\n reviews_lst.append({'text': text})","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь выделим тем же образом ссылки, они зашиты в кнопки «Читать полностью отзыв и комментарии» (класс ‘read-more-serm‘):"}},{"type":"code","data":{"code":"urls = driver.find_elements(By.XPATH, \"//*[@class='read-more-serm']/a\")\r\nfor element in urls:\r\n review_absolute_path = element.get_attribute(\"href\")\r\n urls_lst.append(review_absolute_path)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Осталось вычленить время создания отзыва:"}},{"type":"code","data":{"code":"dates = driver.find_elements(By.XPATH, \"//*[@class='divh1 red']\")\r\nfor element in dates:\r\n element = element.text\r\n when = re.sub(' \\|(.*)', '', element)\r\n dates_lst.append(when)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь троицу выше превратим в словарь:"}},{"type":"code","data":{"code":"i = 0\r\nwhile i < len(reviews_lst):\r\n review = {'text': reviews_lst[i]['text'], 'when': dates_lst[i], 'url': urls_lst[i]}\r\n reviews.append(review)\r\n i += 1","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Преобразуем словарь в таблицу методом pd.DataFrame():"}},{"type":"code","data":{"code":"scrapedReviews = pd.DataFrame(reviews)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Добавим столбец с автоматическим индексом:"}},{"type":"code","data":{"code":"scrapedReviews.insert(0, 'id', range(0, 0 + len(scrapedReviews)))","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Сохраним результат в файл.csv:"}},{"type":"code","data":{"code":"scrapedReviews.to_csv('scrapedReviews.csv', index=False)","language":"python lazy-code"}},{"type":"image","data":{"file":{"id":20502,"url":"https://media.tproger.ru/user-uploads/79101/2023-11-19/4bb65e36-62f4-4f63-abd4-076515636f2d.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1600,"height":934,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/79101/2023-11-19/4bb65e36-62f4-4f63-abd4-076515636f2d.png","alt":"Selenium: пишем парсер для меняющегося сайта 1","dimensions":{"width":1600,"height":934},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/XgOZ1ZGgaIrP7P1H8pq4noAOZ46Fb8uoB8TZ7BInqdo/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/ScYE6hGwzFb3kcHAz0QY0bloBFjww4gG9zH4-3rhDh0/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/wOE_yw8UP0_5VCwSrIJnp-G-BXVELRNieJPV2ZJMmvg/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/VldrOnmJUFZ5KCikHxd0xQFQeUIlf0YGJLhEdfU4qRc/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/-0K3_8R48jWo7mOJ3KTtKa_BWcIAGPlMTE2R5DIYHnw/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/wd2RCY_VDv1SwWiMooHG8Rz_FXAGHa75IOupN6QnjNY/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/MKiXYJ1AjLYIm7ok_i6HG_H335K_GUZY1KbIQKpU3oA/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/iNB8GfmlAm_oNwsWlkFJ8A1u9LvaNsehm8JZtQrFcVs/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5LzRiYjY1ZTM2LTYyZjQtNGY2My1hYmQ0LTA3NjUxNTYzNmYyZC5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Отправим отзывы по одному в чат Telegram:"}},{"type":"code","data":{"code":"i = 0\r\nwhile i < len(scrapedReviews):\r\n bot.send_message(chat_id=TELEGRAM_CHAT_ID, text=f'\\n{scrapedReviews[\"text\"][i][:-4]}\\n {scrapedReviews[\"url\"][i]} \\n-------------------\\n', disable_web_page_preview=True, parse_mode='html')\r\n i += 1","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Кстати, параметр parse_mode позволяет подключить HTML-разметку и улучшить читаемость отзыва. Разделы «Список льгот», «Что мне нравится в работодателе» и «Что можно было бы улучшить» были «обернуты» полужирным шрифтом (…):"}},{"type":"image","data":{"file":{"id":20503,"url":"https://media.tproger.ru/user-uploads/79101/2023-11-19/c98ba23e-501a-4dfd-a098-0f74409222bb.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":1600,"height":420,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/79101/2023-11-19/c98ba23e-501a-4dfd-a098-0f74409222bb.png","alt":"Selenium: пишем парсер для меняющегося сайта 2","dimensions":{"width":1600,"height":420},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/1xk8WiZo0NIY-nxvjYfQ7NIUf9lu_qr540EuKYx9ph4/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/zejGxuB0Q1J7TZ7djgob8dnfIAuqgzV9IxWQhzduRDc/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/rv-KaXWPKr41rUu9eTn8pckmxHHKpQJOkhnj9X0fotU/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/j6Vb7GJlIOFMXQriiZIL3LPhA88BmfsC4iyr7lhD_5c/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/5IayPC42wGJO42iUOVsmNzcfrsAJO9ENs4mfU4J_NS8/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/TEEKuYv3aweSuPsAxVofoc48T1gICS-2EliboEFQCOo/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/DLNCnasOWfssSiC6ugG57M1C6DN8ZUyYg76lQqglcK8/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/mVN2G6NaG571qgl-nMHRbxtwFN-aMYpGmuqtRLMeI9U/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDIzLTExLTE5L2M5OGJhMjNlLTUwMWEtNGRmZC1hMDk4LTBmNzQ0MDkyMjJiYi5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"header2","data":{"level":2,"text":"Заключение"}},{"type":"paragraph","data":{"text":"Конечно, существуют и low-code решения для сбора данных с веба, однако полную управляемость по-прежнему обеспечивают лишь самописные инструменты вроде selenium и beautifulsoup4. Подспорьем новичкам в этой нелегкой задаче, где структура HTML-документа то и дело меняется, может стать подборка пауков на GitHub. Добросовестная часть авторов их даже обернула в Docker, а это значит, что процесс деплоя и дотяжки селекторов до актуального состояния займет у вас минимум времени."}},{"type":"paragraph","data":{"text":"Полный код можно посмотреть по ссылке."}},{"type":"poll","data":{"id":"655a5d5caae04c8bb7036b73"}}]}

Ошибка в настройках сайта