{"blocks":[{"type":"paragraph","data":{"text":"Задача спарсить и обработать необходимую информацию со стороннего сайта встает перед веб-разработчиком довольно часто и по самым разнообразным причинам: таким образом можно заполнять свой проект контентом, динамически подгружать какую-то информацию и так далее."}},{"type":"paragraph","data":{"text":"В таких случаях перед программистом встает вопрос: какую из десятков библиотек выбрать? В этой статье мы постарались рассмотреть самые популярные варианты и выбрать из них лучший."}},{"type":"header3","data":{"level":3,"text":"Регулярные выражения"}},{"type":"paragraph","data":{"text":"Даже не смотря на то, что «регулярки» — это первое, что приходит на ум, использовать их для настоящих проектов не стоит."}},{"type":"paragraph","data":{"text":"Да, с простыми задачами регулярные выражения справляются лучше всех, но его использование значительно затрудняется, когда нужно спарсить большой и сложный кусок HTML-кода, который, к тому же, не всегда соответствует какому-то определенному шаблону и вообще может содержать синтаксические ошибки."}},{"type":"paragraph","data":{"text":"Вместо «допиливания» своего регулярного выражения при каждом малейшем изменении кода рекомендуем использовать инструменты ниже — это и проще, и удобнее, и надежнее."}},{"type":"header3","data":{"level":3,"text":"XPath и DOM"}},{"type":"paragraph","data":{"text":"DOM и XPath не являются библиотеками в привычном смысле этого слова, это стандартные модули, которые встроены в PHP начиная с пятой версии. Именно отсутствие необходимости использовать сторонние решения делает их одними из лучших инструментов для парсинга HTML страниц."}},{"type":"paragraph","data":{"text":" "}},{"type":"image","data":{"file":{"id":10051,"url":"//media.tproger.ru/uploads/2015/10/xpath_logo.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":200,"height":93,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2015/10/xpath_logo.png","alt":"Парсинг и обработка веб-страницы на PHP: выбираем лучшую библиотеку 1","dimensions":{"width":200,"height":93},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/o2ODGQF79HfRJ9g3CyQ7Rb5Yy_sKknXbew9AXJg2_zg/rs:fill:200:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":200},{"url":"https://tproger.ru/signed_image/6cfHF6btaJTTZqDZH4A_BGQNDC0BWOasv_uDMVx8RLU/rs:fill:400:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":400},{"url":"https://tproger.ru/signed_image/o2ODGQF79HfRJ9g3CyQ7Rb5Yy_sKknXbew9AXJg2_zg/rs:fill:200:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":200},{"url":"https://tproger.ru/signed_image/6cfHF6btaJTTZqDZH4A_BGQNDC0BWOasv_uDMVx8RLU/rs:fill:400:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":400},{"url":"https://tproger.ru/signed_image/o2ODGQF79HfRJ9g3CyQ7Rb5Yy_sKknXbew9AXJg2_zg/rs:fill:200:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":200},{"url":"https://tproger.ru/signed_image/6cfHF6btaJTTZqDZH4A_BGQNDC0BWOasv_uDMVx8RLU/rs:fill:400:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":400},{"url":"https://tproger.ru/signed_image/o2ODGQF79HfRJ9g3CyQ7Rb5Yy_sKknXbew9AXJg2_zg/rs:fill:200:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":200},{"url":"https://tproger.ru/signed_image/6cfHF6btaJTTZqDZH4A_BGQNDC0BWOasv_uDMVx8RLU/rs:fill:400:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNS8xMC94cGF0aF9sb2dvLnBuZw=","dpr":1,"width":400}],"sizes":[{"media":"(min-width: 1441px)","size":"200px"},{"media":"(min-width: 1281px)","size":"200px"},{"media":"(min-width: 1281px)","size":"200px"},{"media":"(min-width: 961px)","size":"200px"},{"media":"(min-width: 671px)","size":"200px"},{"media":"(min-width: 500px)","size":"200px"}]}}}},{"type":"paragraph","data":{"text":" "}},{"type":"paragraph","data":{"text":"На первый взгляд может показаться, что низкий порог входа — это не о них, некоторые места и вправду являются весьма сложными. Но это только на первый взгляд: стоит только немного разобраться с синтаксисом и базовыми принципами, как XPath тут же станет для вас инструментом для парсинга номер один."}},{"type":"paragraph","data":{"text":"Вот, например, код с использованием DOM и XPath, который ищет в разметке все теги и модифицирует их атрибуты src:"}},{"type":"code","data":{"code":"$dom = new DOMDocument;\r\n$dom->loadHTML($html);\r\n$images = $dom->getElementsByTagName('img');\r\n\r\nforeach ($images as $image) {\r\n $image->setAttribute('src', 'http://example.com/' . $image->getAttribute('src'));\r\n}\r\n\r\n$html = $dom->saveHTML();","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Тем не менее, данный вариант не лишен минусов — для парсинга используется движок, в первую очередь предназначенный для работы с XML, а XML и HTML хоть и являются очень похожими языками, но всё же различаются. Из этого вытекают специфические требования к разметке: например, все HTML теги должны быть закрыты."}},{"type":"header3","data":{"level":3,"text":"Simple HTML DOM"}},{"type":"paragraph","data":{"text":"Simple HTML DOM — PHP-библиотека, позволяющая парсить HTML-код с помощью удобных jQuery-подобных селекторов."}},{"type":"paragraph","data":{"text":"Она лишена главного недостатка XPath — библиотека умеет работать даже с невалидным HTML-кодом, что значительно упрощает работу. Вы также забудете о проблемах с кодировкой: все преобразования выполняются автоматически."}},{"type":"paragraph","data":{"text":"Как и JQuery, Simple HTML DOM умеет искать и фильтровать вложенные элементы, обращаться к их атрибутам и даже выбирать отдельные логические элементы кода, например, комментарии."}},{"type":"paragraph","data":{"text":"В этом примере сначала подгружается, а потом модифицируется заранее заготовленный HTML-код: во второй строке происходит добавление атрибута class со значением bar первом попавшемуся элементу div, а в следующей строке мы заменяем текст элемента с id=”world” на foo."}},{"type":"code","data":{"code":"$html = str_get_html('

Hello

World

');\r\n$html->find('div', 1)->class = 'bar';\r\n$html->find('div[id=world]', 0)->innertext = 'foo';\r\necho $html;","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Несмотря на не самую высокую производительность, по сравнению с другими вариантами, Simple HTML DOM имеет самое большое русскоязычное комьюнити и наибольшую распространенность в рунете — для новичков это делает написание кода с её использованием значительно проще."}},{"type":"header3","data":{"level":3,"text":"phpQuery"}},{"type":"paragraph","data":{"text":"Как и Simple HTML DOM, phpQuery является PHP вариантом JQuery, но на этот раз более похожим на своего «старшего javascript-брата»."}},{"type":"paragraph","data":{"text":"Портировано почти всё, что есть в JS-фреймворке: поддержка селекторов, атрибутов, манипуляций, обхода, плагинов, событий (в том числе имитации кликов и т.д.) и даже AJAX. Использовать можно как через PHP, так и через командную строку в виде отдельного приложения."}},{"type":"paragraph","data":{"text":"Более того, согласно нашим бенчмаркам, phpQuery оказался в 8 (!) раз быстрее Simple HTML DOM."}},{"type":"paragraph","data":{"text":"Вот небольшой пример на phpQuery, в котором происходит обработка заранее выбранных элементов списка (li):"}},{"type":"code","data":{"code":"foreach(pq('li') as $li) {\r\n // Можно вывести различные данные обычным текстом \r\n $tagName = $li->tagName;\r\n $childNodes = $li->childNodes;\r\n // А можно добавить обертку phpQuery (аналог $() в JQuery) и, например, добавить к элементу какой-то класс\r\n pq($li)->addClass('my-second-new-class');\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Подробную документацию и больше примеров найдете на официальной странице в Google Code."}},{"type":"header3","data":{"level":3,"text":"htmlSQL"}},{"type":"paragraph","data":{"text":"htmlSQL — экспериментальная PHP библиотека, позволяющая манипулировать HTML-разметкой посредством SQL-подобных запросов."}},{"type":"paragraph","data":{"text":"Простейший пример, извлекающий атрибуты href и title всех ссылок (элементы a) с классом list:"}},{"type":"code","data":{"code":"SELECT href,title FROM a WHERE $class == \"list\"","language":"sql lazy-code"}},{"type":"paragraph","data":{"text":"Как и с обычными mysql_ функциями, воспользовавшись методами fetch_array() или fetch_objects(), мы можем получить результат выполнения данного запроса в виде привычного ассоциативного массива или объекта."}},{"type":"paragraph","data":{"text":"Стоит также упомянуть о высоком быстродействии htmlSQL: часто она справляется в несколько раз быстрее phpQuery или того же Simple HTML DOM."}},{"type":"paragraph","data":{"text":"Тем не менее, для сложных задач вам может не хватить функциональности, а разработка библиотеки давно прекращена. Но даже несмотря на это, она всё ещё представляет интерес для веб-разработчиков: в ряде случаев значительно удобнее использовать язык SQL вместо CSS-селекторов. Особенно когда вы не знаете, что такое CSS-селекторы ?"}},{"type":"header3","data":{"level":3,"text":"Вывод"}},{"type":"paragraph","data":{"text":"В своем мини-исследовании мы пришли к выводу, что в большинстве случаев для парсинга лучше использовать библиотеку phpQuery: она быстрая, функциональная и современная."}},{"type":"paragraph","data":{"text":"С другой стороны, для совсем простых задач логично было бы использовать стандартные модули PHP, такие как XPath, DOM или, на крайний случай, регулярные выражения."}},{"type":"header3","data":{"level":3,"text":"Что-то ещё?"}},{"type":"paragraph","data":{"text":"Для PHP существуют ещё десятки разнообразных библиотек и инструментов для парсинга, но в этой статье мы рассмотрели только самые интересные, функциональные и производительные."}},{"type":"paragraph","data":{"text":"Подробнее о других способах парсинга средствами PHP можно прочитать в соответствующей теме на StackOverflow."}},{"type":"paragraph","data":{"text":"Если вы не используете PHP, то можете ознакомится с кратким списком похожих инструментов для других языков программирования:"}},{"type":"paragraph","data":{"text":"C++: htmlcxx, libxml++;"}},{"type":"paragraph","data":{"text":"Python: lxml, BeautifulSoup, html5lib;"}},{"type":"paragraph","data":{"text":"Java: JSOUP, TagSoup;"}},{"type":"paragraph","data":{"text":"Ruby: Nokogiri, Oga, Rubyful Soup;"}},{"type":"paragraph","data":{"text":"Perl: HTML::TokeParser, HTML::Parser, HTML::SimpleParse;"}},{"type":"paragraph","data":{"text":".NET: Html Agility Pack;"}},{"type":"paragraph","data":{"text":"Swift: libxml 2, Hpple;"}},{"type":"paragraph","data":{"text":"Ассемблер: AsmXml."}}]}

Ошибка в настройках сайта