{"time":1744022378442,"blocks":[{"id":"8eNInRl_vN","type":"paragraph","data":{"text":"В Точке мы обучаем наших AI-ассистентов, а для этого нужно много данных. В статье расскажу, как быстро собрать информацию практически с любого сайта при помощи фреймворка Scrapy. "}},{"id":"k48ThHJfu5","type":"header2","data":{"text":"Зачем компании собирают данные","level":2},"tunes":{}},{"id":"AWWasdDMp8","type":"paragraph","data":{"text":"Сегодня в интернете более 1 миллиарда сайтов. На великом и ужасном реддите каждый час появляется более 50 000 новых публикаций. На Github уже опубликовано более 300 млн публичных репозиториев. Всё это — открытые данные, которые можно использовать и, главное — собирать. Разумеется, перед этим проверить условия использования сайта, потому что некоторые из них могут запрещать сбор данных."}},{"id":"okYviD0fEW","type":"paragraph","data":{"text":"Зачем это нужно компаниям:"}},{"id":"vDpimlqVIl","type":"list","data":{"style":"unordered","items":["Анализ рынка: для ритейла это возможность изучить клиентов и конкурентов.","Мониторинг сайтов вендоров ПО: некоторые компании выкладывают уязвимости в своих продуктах и делятся возможными решениями.","Создание продукта: собранные данные можно обогатить, прикрутить красивый интерфейс, умный поиск и предложить пользователю новое приложение, типа 2GIS.","Развитие LLM: например, Google в 2024 году заключил контракт с Reddit на сбор данных. Open AI тоже часто говорят о том, что обучают свою модель на открытых источниках, а в ближайшее время хотят подключить ещё и транскрибации с YouTube. "]}},{"id":"3yx7s3Hc5l","type":"paragraph","data":{"text":"Как вы поняли, в интернете очень много данных. И если мы хотим их собрать, то нам нужен подходящий инструмент. "}},{"id":"2AS6TtSvW0","type":"header2","data":{"text":"Что такое Scrapy ","level":2},"tunes":{}},{"id":"a3Y91DpmuV","type":"paragraph","data":{"text":"Это высокоуровневый фреймворк на Python для краулинга и скреппинга сайтов. На GitHub у него больше 53 тысяч звёздочек, 10,6 тысяч форков и много глазиков. А ещё он занимает первое место по тегам #crawling и #scraping."}},{"id":"DNk4QaRtm0","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/108715/2025-04-06/e72840e2-833f-411b-bb5f-0ade0d6ea7f7.png","id":48262},"stretched":false,"withBackground":false,"withBorder":false,"width":799,"height":364,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/108715/2025-04-06/e72840e2-833f-411b-bb5f-0ade0d6ea7f7.png","alt":"Настраиваем паука для сбора данных: как работает фреймворк Scrapy 1","dimensions":{"width":799,"height":364},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/i8FDwA1VUS1laMIrW_bDE_HfQ_ytMiAf3EA9Ge_CzCI/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/p_QyNRoSqhYOurbSt7RHRKOB9myfoQz8yNmFxHBrwC4/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/DTBIWcKexGpHPCmRQB3OGfnN0Qwo-oh7kRXEM7D_U0Q/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/aRiw54vB9SXLH8juDYvKOzAePW3qjup3rb_Esx35sAc/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/hZvCDSMvFu3S7HjMI8MHhEcPMAwXuDpNhWaOGmOl53c/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/BytBI_R_rirkSsswD0Us_8Lbiyhb4LgLo4ZwVSQ23Zk/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/53jXyz1P3lt8mgtWO-356N2hov7FVlXndte__jViDI4/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/Dj4FmQumhRhuvhk4Iaf0L9LjAPLFEWbm3s_IBC7PxjI/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9lNzI4NDBlMi04MzNmLTQxMWItYmI1Zi0wYWRlMGQ2ZWE3ZjcucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"sGDNJbjCmy","type":"paragraph","data":{"text":"Есть много причин, почему Scrapy так популярен: "}},{"id":"YSBkO46xfA","type":"list","data":{"style":"unordered","items":["Это фреймворк с готовой архитектурой — там много инструментов, доступных из коробки, которые можно настроить и использовать.","Он асинхронный — чаще возникает задача замедлить его, чем ускорить.","У него простые настройки — нужно всего раз подумать над архитектурой, а добавление новых источников будет занимать минимум времени.","Scrapy удобно дебажить в любой момент, начиная от загрузки страницы и заканчивая сохранением данных в базе.","Есть продуманные селекторы, доступны CSS, Xpath. Их можно комбинировать или выбрать что-то одно.","Большое комьюнити и обновляемая документация. Ответы на большинство вопросов можно легко найти в сети."]}},{"id":"MeVpoBkoDo","type":"paragraph","data":{"text":"Scrapy точно подойдёт вам, если во всех ваших источниках одинаковый формат данных и вы можете унифицировать их обработку и сохранение. Но всё-таки его нельзя назвать универсальным инструментом. "}},{"id":"e17ac6c6-0826-4f9f-812c-d2c3d9a4c2ce","type":"banner-blank","data":{}},{"id":"KDntfzzA2z","type":"paragraph","data":{"text":"Scrapy будет не лучшим выбором, если: "}},{"id":"VP8yxILQOI","type":"list","data":{"style":"unordered","items":["Нужно собрать малый объем данных или собрать их нужно всего один раз.","Вам нужно отдать просто сырые html или json, а не парсить и преобразовывать данные.","Среди источников нет общей структуры данных."]}},{"id":"3CNCb0HowG","type":"paragraph","data":{"text":"Во всех этих случаях мы можем использовать Scrapy, но, скорее всего, он будет излишним. "}},{"id":"bF7OMVSCbX","type":"header2","data":{"text":"Как работает Scrapy","level":2},"tunes":{}},{"id":"L7q_kSBNz3","type":"paragraph","data":{"text":"После того, как вы установили Scrapy в виртуальное окружение ( '' pip instal scrapy' ) и создали новый проект ( ' scrapy startprogect scraper '' ), вам необходимо написать своего первого «паука»."}},{"id":"SmwAck8Igg","type":"paragraph","data":{"text":"В Scrapy используется класс spider — он определяет, как мы будем извлекать данные из сайтов. Допустим, нам нужно собрать информацию с одностраничного сайта. Создаём класс TestSpider, наследуемся от scrapy.Spider, добавляем атрибут name с уникальным именем и start_urls, где укажем страницы, с которых нужно начать поиск. После этого переопределим метод parse."}},{"id":"LKyHX34ATW","type":"code","data":{"code":"class TestSpider(scrapy.Spider):\n\n name = \"test\"\n start_urls = [\"https://test.ru/\"]\n\n def parse(self, response: scrapy.http.Response):","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"CKxZgwP4HH","type":"paragraph","data":{"text":"Parse является дефолтным для обработки ответов. Если вы сделаете request и не укажете функцию, которая должна его обработать, то ответ от запроса придёт в метод parse. Поэтому его, как минимум, нужно переопределить и назначить логику. "}},{"id":"9tX32Q_1qA","type":"paragraph","data":{"text":"Допустим, нас интересует информация о компании — название и описание. Можем создать объект данных с двумя элементами — title и content, и с помощью двух xpath селекторов забрать со страницы заголовок и описание. "}},{"id":"VxlGN6V43O","type":"code","data":{"code":"class TestSpider(scrapy.Spider):\n\n name = \"test\"\n start_urls = [\"https://test.ru/\"]\n\n def parse(self, response: scrapy.http.Response):\n\n item = {\n \"title\": response.xpath(\"//h1/text()\").get()\n \"content\": response.xpath(\"//section//text()\").get()\n }\n\n yield item","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"h-y6NGr8nW","type":"paragraph","data":{"text":"В конце передаём этот объект данных для последующей обработки в ядро. Это всё, что нужно, чтобы начать парсинг на Scrapy. "}},{"id":"qfm1Hkrwz6","type":"header2","data":{"text":"Обработка данных в Scrapy","level":2},"tunes":{}},{"id":"SRHwRiuJOy","type":"paragraph","data":{"text":"Дальше в ход вступает PipeLine. Он отвечает за обработку данных, валидацию или сохранение. В Scrapy есть пайплайны, готовые из коробки, но вы также можете написать их самостоятельно. "}},{"id":"6489d8b2-0ea8-4de7-a295-eb88c35fe49f","type":"banner-blank","data":{}},{"id":"kdRzLSgXwY","type":"paragraph","data":{"text":"В ValidatePipeline мы проверяем объект данных на наличие title, а в SavePipeline — сохраняем объект в качестве json."}},{"id":"2HSyvBEWNt","type":"code","data":{"code":"class ValidatePipeline:\n\n def process_item(self, item: dict, spider: scrapy.Spider):\n if not item>get(\"title\"):\n raise DropItem(f\"Missing title in {item}\")\n return item\n\nclass SavePipeline:\n\n def process_item(self, item: dict, spider: scrapy.Spider):\n new_file: Path = CURRENT_DIR / f\"{item['title']}.json\"\n json_data: str = json.dumps(item)\n new_file.write_text(json_data)\n return item","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"q9o0QGLqqN","type":"paragraph","data":{"text":"Здесь я просто показал, как можно создать пайплайн самостоятельно. Но имейте в виду, что это не очень отказоустойчивый код, поэтому в проде так делать не стоит."}},{"id":"Dmnx6ij8hM","type":"header2","data":{"text":"Зачем нужен Middleware","level":2},"tunes":{}},{"id":"qtjtreW_vC","type":"paragraph","data":{"text":"Middleware очень похож на PipeLine, только он обрабатывает не объекты данных, а запросы и ответы от сайта."}},{"id":"173Zo8KzB9","type":"paragraph","data":{"text":"В Scrapy есть несколько разных middleware:"}},{"id":"KcKcGFL3ks","type":"list","data":{"style":"unordered","items":["scheduler middleware: помещает запросы в очередь и извлекает их для обработки.","spider middleware: управляет данными между пауком и ядром.","downloader middleware: управляет данными между ядром и загрузчиком."]}},{"id":"7OkxS4aker","type":"paragraph","data":{"text":"Получается такая схема работы компонентов Scrapy:"}},{"id":"mv6OXLGynJ","type":"paragraph","data":{"text":"Запрос: Spider → Spider Middleware → Engine → Scheduler Middleware → Scheduler → Engine → Downloader Middleware → Downloader → Server (сайт)"}},{"id":"ca0D9Ft7nk","type":"paragraph","data":{"text":"Ответ: Server → Downloader → Downloader Middleware → Engine → Spider Middleware → Spider → Item Pipeline → Storage (хранилище данных)"}},{"id":"OBh5Wkn4Wa","type":"paragraph","data":{"text":"Скорее всего, в первую очередь вы будете настраивать downloader middleware, поэтому разберём его подробнее. "}},{"id":"yHg88JN2ry","type":"paragraph","data":{"text":"Ниже продемонстрировал два примера, как можно написать свой Middleware. В RandomProxyMiddleware мы обрабатываем все запросы, которые будет отсылать наш паук с помощью метода process_request (добавляем рандомную прокси к каждому реквесту), а в CheckCaptchaMiddleware — обрабатываем все ответы с помощью метода process_response (проверяем ответ от сайта, ищем в нём слово captcha)."}},{"id":"yEE8bOkYU9","type":"code","data":{"code":"class RandomProxyMiddleware:\n\n def process_request(self, request, spider):\n request.meta[\"proxy\"] = random.choice(PROXY_LIST)\n\n\n\nclass CheckCaptchaMiddleware:\n\n def process_response(self, request, response, spider):\n if \"captcha\" in response.text:\n return solve_captcha(response)\n\n return response","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"hRjonFxnWR","type":"paragraph","data":{"text":"Итак, мы написали Pipeline и Middlewares. Дальше нужно указать, как мы будем их использовать. Для этого запишите их в файле settings.py, где находятся настройки проекта. "}},{"id":"2943c3ea-990a-47cf-9875-c26f260e9f9f","type":"banner-blank","data":{}},{"id":"ouSW8uW2UD","type":"paragraph","data":{"text":"Начнём с пайплайнов. Цифра справа — это порядковый номер выполнения. То есть первым будет ValidatePipeLine, а вторым сработает SavePipeline. Обычно цифры указываются от 0 до 1000. И в случае с пайплайнами чем ниже цифра, тем раньше сработает пайплайн. "}},{"id":"avAlJchTY-","type":"code","data":{"code":"ITEM_PIPELINES = {\n \"scraper.pipelines.ValidatePipeline\": 1,\n \"scraper.pipelines.SavePipeline\": 2,\n}","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"G4j1JDmSNm","type":"paragraph","data":{"text":"В случае с middleware картина такая же, но логика немного иная."}},{"id":"Ytun0V-ART","type":"code","data":{"code":"DOWNLOADER_MIDDLEWARES = {\n \"scraper.middlewares.RandomProxyMiddleware\": 1,\n \"scraper.middlewares.CheckCaptchaMiddleware\": 2,\n}","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"VewruyK1Le","type":"paragraph","data":{"text":"Каждый middleware может обрабатывать как request, так и response. При этом middleware стоит посередине между ядром, который отправляет запросы, и загрузчиком. Если ваша middleware обрабатывает запросы, то сработает первой та, что указана с меньшей цифрой, потому что она ближе к ядру. А если middleware обрабатывает ответы, то первой будет та, у которой цифра больше, потому что она дальше от ядра и ближе к загрузчику."}},{"id":"r6EVXgK0Zh","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/108715/2025-04-06/db359adf-e3fd-40c8-81e5-5c0d9658bd0a.png","id":48263},"stretched":false,"withBackground":false,"withBorder":false,"width":955,"height":377,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/108715/2025-04-06/db359adf-e3fd-40c8-81e5-5c0d9658bd0a.png","alt":"Настраиваем паука для сбора данных: как работает фреймворк Scrapy 2","dimensions":{"width":955,"height":377},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/gKPydnSO9INa3VdLV0M4YCxbtPwFGn8a8ij79D7pTAM/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/uYtGjtOcl4QenViw-9Yss0b9NRrb2LzEN0arzQpf3V4/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/VOcrR7VKfaUphA2ADPhXZZPh_8GCq_0FWMlGTIIUwQU/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/7kojgq5nEjv08VP22cP-Mi2cYpBB3taGfZHpE4qhE6Q/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/O_LwK8h0TZ6AmTtvdGOKH80Qy1YX6TlClZXpTE9lWNM/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/uDlulAJWrDSVMWCyl2p-qUn4TNp5s4YvZGs5tkqz8j8/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/rb5W1zGCJPPT5zjJHD2nSdkeMdSAmL_3vROD_q3f284/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/K7RZ9EEdmGh-qIvtLdXO6akmqjjk7yEBIaTbZmzVD_c/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDg3MTUvMjAyNS0wNC0wNi9kYjM1OWFkZi1lM2ZkLTQwYzgtODFlNS01YzBkOTY1OGJkMGEucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"UOz4WWAXf6","type":"paragraph","data":{"text":"Об этот нюанс часто спотыкаются новички, хотя, скорее всего, он прописан в документации. "}},{"id":"ziab_H1AN0","type":"header2","data":{"text":"Пример, как использовать Scrapy","level":2},"tunes":{}},{"id":"K7x46JgIJV","type":"paragraph","data":{"text":"Рассмотрим, как с помощью одного селектора собрать сайт любой вложенности и архитектуры. "}},{"id":"YOep0jayF9","type":"paragraph","data":{"text":"Для начала создаём класс паука, наследуемся от scrapy.Spider, указываем name, start_urls и атрибут allowed_domains — он необязательный, но в данном случае без него не обойтись. В нём мы укажем список хостов, на которые разрешаем ходить нашему пауку, чтобы он не начал собирать другие сайты."}},{"id":"Rv7KZjOBYd","type":"code","data":{"code":"class TestSpider(scrapy.Spider):\n\n name = \"test\"\n start_urls = [\"https://test.ru/\"]\n allowed_domains = [\"test.ru\"]","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"0AnLwTtD6g","type":"paragraph","data":{"text":"Дальше переопределяем метод parse и, когда к нам приходит ответ от сайта, находим все ссылки. И это и есть тот единственный xpath селектор, который поможет обойти весь сайт и собрать страницы. "}},{"id":"kL3WhHYk-G","type":"paragraph","data":{"text":"Все ссылки помещаем в переменную url в качестве списка, а потом этот список передаём в функцию follow_all объекта response. "}},{"id":"76f02833-6936-4396-8637-5125411d2794","type":"banner-blank","data":{}},{"id":"PjQXcrBS-n","type":"paragraph","data":{"text":"Чтобы дописать сохранение, просто передаём объект response вглубь ядра Scrapy, где напишем какой-то нехитрый пайплайн и будем сохранять html-страницы. Так можно собрать абсолютно любой сайт, просто подставьте ссылку на него в start_urls."}},{"id":"MhAANLwJ9Y","type":"code","data":{"code":"class TestSpider(scrapy.Spider):\n\n name = \"test\"\n start_urls = [\"https://test.ru/\"]\n allowed_domains = [\"test.ru\"]\n\n def parse(self, response: scrapy.http.Response)\n urls = response.xpath(\"//a/@href\").getall()\n\n yield from response.follow_all(urls)\n\n yield {\"response\": response}","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"IVrbr58_Po","type":"paragraph","data":{"text":"Важный нюанс: под капотом follow_all сделает запросы к сайту по всем ссылкам, которые мы нашли на странице. И поскольку в follow all мы не указываем определённый метод в параметре callback, то все ответы придут сюда же в метод parse (потому что он дефолтный в Scrapy). Эта логика будет повторяться на каждой странице."}},{"id":"XUXBtwqFaN","type":"paragraph","data":{"text":"Ещё в Scrapy есть внутренний фильтр, поэтому если паук соберёт дубликаты, то автоматически зафильтрует их и не будет проходить по ссылкам дважды. "}},{"id":"uqW2Hh9CbC","type":"header2","data":{"text":"Немного итогов","level":2},"tunes":{}},{"id":"GHQfiW3drx","type":"paragraph","data":{"text":"Scrapy — это большой, сложный, но очень хороший фреймворк, как Django в веб-разработке. Он предлагает большой выбор готовых инструментов для сбора и обработки данных, а также, поддерживает асинхронное выполнение задач, что ускоряет процесс парсинга. "}},{"id":"bmm4XzyNK2","type":"paragraph","data":{"text":"Scrapy может показаться трудным для новичков, но у него есть богатая документация и примеры, поэтому при желании в нём нетрудно разобраться."}}],"version":"2.25.0"}

Ошибка в настройках сайта