(.+?)

{"blocks":[{"type":"expertLegacy","data":{"id":"1166"}},{"type":"paragraph","data":{"text":"Поскольку Яндекс не захотел парсить мои сайты сославшись на то, что они не умеют обрабатывать контент в формате deflate мне захотелось разобраться в чем дело и попробовать написать свой поисковый сервис. Вообще служба техподдержки Яндекс оказалась для меня бесполезной, поскольку два дня Платоны доказывали мне, что сайты на Revolver CMF отдают битую кодировку. В то же время это был просто сжатый в deflate HTML. В итоге я решил написать свой индексатор, который умеет индексировать сжатый HTML и не только."}},{"type":"paragraph","data":{"text":"Создавать было решено антибюрократический Open Source поисковик, ранжирующий результаты в выдаче на основе голосов зарегистрированных пользователей без участия модерации."}},{"type":"paragraph","data":{"text":"Название мы с друзьями выбрали созвучно всем известной Picus Networks из мира компьютерной игры DeusEx. Осталось создать два алгоритма Pick для выполнения запросов и Picker для индексации контента."}},{"type":"header2","data":{"level":2,"text":"Как создавался Pick"}},{"type":"paragraph","data":{"text":"Можно было реализовать поисковую систему отдельно, но я использовал framework RevolveR, который предоставляет доступ к API работы с базой данных и ее кэширование, обработку POST и GET запросов с защитой, а также fetch API для динамических запросов."}},{"id":"682a2ab7-5623-435e-adb9-32cedd76919f","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"А после интеграции Pick стал частью ядра. Скачать RevolveR CMF можно со страницы проекта GitHub."}},{"type":"header3","data":{"level":3,"text":"Создаем индекс в базе данных"}},{"type":"paragraph","data":{"text":"Очевидно, что нам нужен свой поисковый индекс, который будет храниться в базе данных. Для этого сформируем структуру на SBQ (structure based queries), которая хранится в файле /Kernel/Structures/DataBase.php:"}},{"type":"code","data":{"code":"$STRUCT_INDEX = [\r\n 'field_id' => [\r\n 'type' => 'bignum', // bigint\r\n 'auto' => true,\r\n 'length' => 255,\r\n 'fill' => true\r\n ],\r\n 'field_uri' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 1000,\r\n 'fill' => true\r\n ],\r\n 'field_host' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 200,\r\n 'fill' => true,\r\n 'index' => [\r\n 'type' => 'simple'\r\n ]\r\n ],\r\n 'field_date' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 20,\r\n 'fill' => true\r\n ],\r\n 'field_hash' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 50,\r\n 'fill' => true\r\n ],\r\n 'field_title' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 600,\r\n 'fill' => true,\r\n 'index' => [\r\n 'type' => 'full'\r\n ]\r\n ],\r\n 'field_description' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 250,\r\n 'fill' => true,\r\n 'index' => [\r\n 'type' => 'full'\r\n ]\r\n ],\r\n 'field_content' => [\r\n 'type' => 'text', // varchar\r\n 'length' => 9000,\r\n 'fill' => true,\r\n 'index' => [\r\n 'type' => 'full'\r\n ]\r\n ]\r\n];","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Мы создали структуру будущей таблицы revolver_index, которую будут использовать модели для записи и хранения данных. Полям content, description и title назначаем полнотекстовый индекс для ускорения запросов SELECT, а для поля host укажем тип индекса simple (это поможет сделать быстрый поиск по всем индексированным ссылкам определённого ресурса)."}},{"type":"paragraph","data":{"text":"Также у нас есть поля date и hash. Дата хранит последний момент индексации ресурса, а hash указывает на актуальность данных (если хэш заново полученной страницы не отличается от хранимого в БД значения, то обновление не выполняется)."}},{"type":"paragraph","data":{"text":"Поле uri будет содержать полную ссылку страницы."}},{"type":"paragraph","data":{"text":"Теперь нам понадобится таблица в БД которая будет хранить рейтинги материалов в формате 5 звезд на основе голосов зарегистрированных пользователей (API для рейтингов есть и о том как оно работает чуть ниже)."}},{"type":"paragraph","data":{"text":"Создадим еще одну структуру:"}},{"type":"code","data":{"code":"$STRUCT_INDEX_RATINGS = [\r\n\t'field_id' => [\r\n\t\t'type' => 'bignum', // big int\r\n\t\t'auto' => true, // auto increment\r\n\t\t'length' => 255\r\n\t],\r\n\t'field_user_id' => [\r\n\t\t'type' => 'bignum', // big int\r\n\t\t'length' => 255,\r\n\t\t'fill'\t => true\r\n\t],\r\n\t'field_index_id' => [\r\n\t\t'type' => 'bignum', // big int\r\n\t\t'length' => 255,\r\n\t\t'fill'\t => true,\r\n\t\t'index'\t => [\r\n\t\t\t'type' => 'simple'\r\n\t\t]\r\n\t],\r\n\t'field_rate' => [\r\n\t\t'type' => 'minnum', // big int\r\n\t\t'length' => 1,\r\n\t\t'fill'\t => true\r\n\t]\r\n];","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Таблица очень простая. Она хранит ID ресурса, ID пользователя и оценку."}},{"type":"paragraph","data":{"text":"Давайте зарегистрируем структуры в схеме базы данных:"}},{"type":"code","data":{"code":"// Compare DBX Schema\r\n$DBX_KERNEL_SCHEMA = [\r\n ...\r\n\t// Pick index\r\n\t'index' => $STRUCT_INDEX,\r\n\t'index_ratings'\t => $STRUCT_INDEX_RATINGS,","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Таблицы сформированы и описаны и нам осталось выполнить SBQ через API RevolveR CMF для создания этих таблиц в базе данных:"}},{"type":"code","data":{"code":"// Create table index\r\n$dbx::query('c', 'revolver__index', $STRUCT_INDEX);\r\n\r\n// Create table index\r\n$dbx::query('c', 'revolver__index_ratings', $STRUCT_INDEX_RATINGS);","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"После выполнения этого кода в базе данных появится таблицы revolver__index и revolver__index_ratings, а мы сможем использовать API моделей для работы с ними."}},{"type":"header3","data":{"level":3,"text":"Регистрируем сервис индексации и страницу поиска"}},{"type":"paragraph","data":{"text":"В RevolveR CMF есть такое понятие как сервисы. Они используются для выполнения каких-то задач при обращении к ним с аргументами, но не имеют кэширования и не обрабатываются шаблоном."}},{"type":"embed","data":{"link":"https://tproger.ru/curriculum/php-beginner"}},{"type":"paragraph","data":{"text":"Чтобы зарегистрировать сервис индексации просто пропишем параметры в файл /private/config.php:"}},{"type":"code","data":{"code":"// search engine crawler\r\n'picker' => [\r\n\t'title' => 'Search engine crawler',\r\n\t'param_check' => [\r\n\t\t'menu' => 0,\r\n\t\t'hidden' => 1\r\n\t],\r\n\t'route' => '/picker/',\r\n\t'node' => '#picker',\r\n\t'type' => 'service',\r\n\t'id' => 'picker',\r\n],","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Здесь все предельно просто. Type service указывает на то, что URL /picker/ будет служить обработчиком запросов, которые избегают систему кэширования фреймворка и игнорируют формирование шаблона."}},{"type":"paragraph","data":{"text":"Теперь сразу же зарегистрируем путь, который будет отображать страницу выполнения поисковых запросов к базе данных. Для этого в этом же файле добавим строки:"}},{"type":"code","data":{"code":"// search engine service\r\nTRANSLATIONS[ $ipl ]['Pick'] => [\r\n\t'title' => TRANSLATIONS[ $ipl ]['Pick'],\r\n\t'param_check' => [\r\n\t\t'menu'\t\t=> 1\r\n\t],\r\n\t'route' => '/pick/',\r\n\t'node' => '#pick',\r\n\t'type' => 'node',\r\n\t'id'\t => 'pick',\r\n],","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Параметр menu указывает на то, что мы отображаем пункт в главном меню, а type равное node указывает на то, что регистрируемый путь является узлом, который подвергается кэшированию по умолчанию и может быть подключен к шаблону."}},{"type":"paragraph","data":{"text":"Мы зарегистрировали 2 URI и теперь нужно подключить обработчики сервиса и узла. Поскольку было решено сделать Pick компонентом ядра, мы модернизируем файл /Kernel/Modules/Switch.php:"}},{"type":"code","data":{"code":"case '#pick':\r\n\tob_start('ob_gzhandler');\r\n\t// Search\r\n\trequire_once('./Kernel/Nodes/NodePick.php');\r\n\tbreak;\r\ncase '#picker':\r\n\tob_start('ob_gzhandler');\r\n\t// Search\r\n\trequire_once('./Kernel/Routes/RoutePicker.php');\r\n\tbreak;","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Этими строками мы создали подключение NodePick и RoutePicker, которые будут содержать основные исходные коды алгоритмов поискового движка. Нам достаточно всего 2 файла."}},{"type":"header3","data":{"level":3,"text":"Индексатор URL Picker"}},{"type":"paragraph","data":{"text":"Чтобы проиндексировать какой либо сайт мы должны иметь доступ по сети и уметь парсить сайты. Для этого была использована стандартная библиотека cURL для PHP."}},{"id":"a110dd7c-acb0-48ff-98f0-9e233cacfb06","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Вот исходный код функции, которая открывает URL и достает содержимое страницы:"}},{"type":"code","data":{"code":"function getUri(string $url): iterable {\r\n\t$ch = curl_init();\r\n\tcurl_setopt($ch, CURLOPT_URL, $url);\r\n\tcurl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Picker/1.0');\r\n\tcurl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);\r\n\tcurl_setopt($ch, CURLOPT_AUTOREFERER, 1);\r\n\tcurl_setopt($ch, CURLOPT_DNS_SHUFFLE_ADDRESSES, 1);\r\n\tcurl_setopt($ch, CURLOPT_FAILONERROR, 1);\r\n\tcurl_setopt($ch, CURLOPT_FILETIME, 1);\r\n\tcurl_setopt($ch, CURLOPT_HEADER, 1);\r\n\tcurl_setopt($ch, CURLOPT_FRESH_CONNECT, 1);\r\n\tcurl_setopt($ch, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_2TLS);\r\n\tcurl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);\r\n\tcurl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 1);\r\n\tcurl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 1);\r\n\tcurl_setopt($ch, CURLOPT_TIMEOUT, 5);\r\n\t$data = curl_exec($ch);\r\n\tif( !curl_errno($ch) ) {\r\n\t\t$i = curl_getinfo($ch);\r\n\t\t$ssl_pass = (int)$i['ssl_verify_result']; \r\n\t\tif( !(bool)$ssl_pass ) {\r\n\t\t\t$ok = true;\r\n\t\t}\r\n\t\tswitch( $i['http_code'] ) {\r\n\t\t\tcase 200:\r\n\t\t\tcase 301:\r\n\t\t\tcase 302:\r\n\t\t\t\t$ok = true;\r\n\t\t\t\tbreak;\r\n\t\t\tdefault:\r\n\t\t\t\t$ok = null;\r\n\t\t\t\tbreak;\r\n\t\t}\r\n\t\tswitch( explode(';', $i['content_type'])[0] ) {\r\n\t\t\tcase 'application/xhtml+xml':\r\n\t\t\tcase 'text/html':\r\n\t\t\t\t$ok = true;\r\n\t\t\t\tbreak;\r\n\t\t\tdefault:\r\n\t\t\t\t$ok = null;\r\n\t\t\t\tbreak;\r\n\t\t}\r\n\t\tlist($hdr, $body) = explode(\"\\r\\n\\r\\n\", $data, 2);\r\n\t\t$headers = explode(\"\\r\\n\", $hdr);\r\n\t\t$xh = [];\r\n\t\tforeach( $headers as $h ) {\r\n\t\t\t$r = explode(':', $h, 2);\r\n\t\t\t$xh[ $r[0] ] = trim($r[1]);\r\n\t\t}\r\n\t\tif( isset( $xh['Content-Encoding'] ) ) {\r\n\t\t\tswitch( $xh['Content-Encoding'] ) {\r\n\t\t\t\tcase 'gzip':\r\n\t\t\t\tcase 'deflate':\r\n\t\t\t\tcase 'compress':\r\n\t\t\t\t\t$data = gzuncompress($body);\r\n\t\t\t\t\tbreak;\r\n\t\t\t}\r\n\t\t}\r\n\t\telse {\r\n\t\t\t$data = $body;\r\n\t\t}\r\n\t\tif( isset( $xh['Date'] ) ) {\r\n\t\t\t$date = DateTime::createFromFormat('D, d M Y H:i:s O', $xh['Date']);\r\n\t\t\t$date = $date->format('h:i d-m-Y');\r\n\t\t}\r\n\t\tif( $data && $ok ) {\r\n\t\t\tcurl_close($ch);\r\n\t\t\treturn [ $data, $date ];\r\n\t\t}\r\n\t\telse {\r\n\t\t\tcurl_close($ch);\r\n\t\t\treturn [ null, null ];\r\n\t\t}\r\n\t}\r\n\telse {\r\n\t\tcurl_close($ch);\r\n\t\treturn [ null, null ];\r\n\t}\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Работает алгоритм очень просто. При передаче URL происходит открытие web-страницы и обработчик проверяет корректность SSL соединения. Далее мы смотрим что тип документа характеризует ценные для нас данные HTML или Application xHTML, а также проверяем код ответа сервера. Все, что препятствует получению данных приводит к возврату значения null."}},{"type":"paragraph","data":{"text":"Дополнительно проверяем, что отдаваемый сервером контент может быть сжатым в gzip, deflate или compress."}},{"type":"paragraph","data":{"text":"Теперь нам нужна функция для работы с самим полученным документом. Мы должны извлечь текстовое содержимое без тегов и получит все ссылки на странице:"}},{"type":"code","data":{"code":"function parse(string $html, string $url): ?iterable {\r\n\t$host_links = [];\r\n\t// Perform title\r\n\tpreg_match_all('#(.+?)#su', $html, $meta_title);\r\n\t// Perform body\r\n\tpreg_match('/]*>(.*?)<\\/body>/is', $html, $meta_body);\r\n\t// Perform links only for host\r\n\tpreg_match_all(\"/]*href\\s*=\\s*([\"']??)([^\"' >]*?)\\1[^>]*>(.*)<\\/a>/siU\", $html, $prelinks, PREG_SET_ORDER);\r\n\t$meta_links = [];\r\n\tforeach( $prelinks as $plnk ) {\r\n\t\t$meta_links[] = $plnk[2]; // $plnk[3] - title\r\n\t}\r\n\tforeach( $meta_links as $l ) {\r\n\t\t$flnk = getHost($l, $url);\r\n\t\tif( getHost($url, $url) === $flnk ) {\r\n\t\t\t$lnk = parse_url($l);\r\n\t\t\t$xlnk = parse_url($url)['scheme'] .'://'. getHost($url, $url);\r\n\t\t\tif( isset($lnk['path']) ) {\r\n\t\t\t\t$xlnk .= $lnk['path'];\r\n\t\t\t}\r\n\t\t\tif( isset($lnk['query']) ) {\r\n\t\t\t\t$xlnk .= '?'. $lnk['query'];\r\n\t\t\t}\r\n\t\t\t$host_links[] = $xlnk;\r\n\t\t}\r\n\t}\r\n\t$usefull_text = trim(\r\n\t\thtml_entity_decode(\r\n\t\t\tpreg_replace([\r\n\t\t\t\t\t'/<.+?>/mi', \r\n\t\t\t\t\t'/\\s*$^\\s*/m', \r\n\t\t\t\t\t'/[\\r\\n]+/', \r\n\t\t\t\t\t'/\\s+/',\r\n\t\t\t\t\t'/&(quot|#34);/i',\r\n\t\t\t\t\t'/&(amp|#38);/i',\r\n\t\t\t\t\t'/&(lt|#60);/i',\r\n\t\t\t\t\t'/&(gt|#62);/i',\r\n\t\t\t\t\t'/&(nbsp|#160);/i',\r\n\t\t\t\t\t'/&(iexcl|#161);/i',\r\n\t\t\t\t\t'/&(cent|#162);/i',\r\n\t\t\t\t\t'/&(pound|#163);/i',\r\n\t\t\t\t\t'/&(copy|#169);/i',\r\n\t\t\t\t], \r\n\t\t\t\t[\r\n\t\t\t\t\t'',\r\n\t\t\t\t\t\"\\n\",\r\n\t\t\t\t\t\"\\n\",\r\n\t\t\t\t\t' ',\r\n\t\t\t\t\t'\"',\r\n\t\t\t\t\t'&',\r\n\t\t\t\t\t'<',\r\n\t\t\t\t\t'>',\r\n\t\t\t\t\t' ',\r\n\t\t\t\t\tchr(161),\r\n\t\t\t\t\tchr(162),\r\n\t\t\t\t\tchr(163),\r\n\t\t\t\t\tchr(169),\r\n\t\t\t\t], \r\n\t\t\t\tpreg_replace(\r\n\t\t\t\t\t[\r\n\t\t\t\t\t\t'/\\s?]*?>.*?<\\/style>\\s?/si',\r\n\t\t\t\t\t\t'/\\s?]*?>.*?<\\/script>\\s?/si',\r\n\t\t\t\t\t\t'/\\s?]*?>.*?<\\/a>\\s?/si',\r\n\t\t\t\t\t\t'/<(header|footer|time).+?(style|script|header|footer|time)>/miU',\r\n\t\t\t\t\t\t'/\\s?]*?>.*?<\\/nav>\\s?/si',\r\n\t\t\t\t\t\t'/\\s?]*?>.*?<\\/form>\\s?/si',\r\n\t\t\t\t\t\t'//', \r\n\t\t\t\t\t\t'/s(w+s)1/i', \r\n\t\t\t\t\t\t'#(\\.|\\?|!|\$|\$){3,}#', \r\n\t\t\t\t\t\t'/\"b([^\"x84x93x94rn]+)b\"/'\r\n\t\t\t\t\t], \r\n\t\t\t\t\t[\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'',\r\n\t\t\t\t\t\t'', \r\n\t\t\t\t\t\t'', \r\n\t\t\t\t\t\t'', \r\n\t\t\t\t\t\t'$1', \r\n\t\t\t\t\t\t'\\1\\1\\1', \r\n\t\t\t\t\t\t'«1»'\r\n\t\t\t\t\t], $meta_body)\r\n\t\t\t)[0]\r\n\t\t)\r\n\t);\r\n\tif( strlen( $usefull_text) >= 120 ) {\r\n\t\treturn [\r\n\t\t\t'title' => $meta_title[1][0],\r\n\t\t\t'meta' => getMetaTags($html),\r\n\t\t\t'href' => array_unique($host_links),\r\n\t\t\t'text' => $usefull_text,\r\n\t\t\t'body' => $meta_body\r\n\t\t];\r\n\t}\r\n\telse {\r\n\t\treturn null;\r\n\t}\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Здесь вы могли заметить еще две вспомогательные функции. Одна из них, getMetaTags(), извлекает из HTML содержимого все мета теги, а другая, getHost(), распаковывает URL и возвращает host."}},{"type":"paragraph","data":{"text":"Исходный код функций получения meta тегов и хоста:"}},{"type":"code","data":{"code":"function getMetaTags(string $str): iterable {\r\n\t$pattern = '~<\\s*meta\\s\r\n\t# using lookahead to capture type to $1\r\n\t\t(?=[^>]*?\r\n\t\t\\b(?:name|property|http-equiv)\\s*=\\s*\r\n\t\t(?|\"\\s*([^\"]*?)\\s*\"|'\\s*([^']*?)\\s*'|\r\n\t\t([^\"'>]*?)(?=\\s*/?\\s*>|\\s\\w+\\s*=))\r\n\t)\r\n\t# capture content to $2\r\n\t[^>]*?\\bcontent\\s*=\\s*\r\n\t\t(?|\"\\s*([^\"]*?)\\s*\"|'\\s*([^']*?)\\s*'|\r\n\t\t([^\"'>]*?)(?=\\s*/?\\s*>|\\s\\w+\\s*=))\r\n\t[^>]*>\r\n\t~ix';\r\n\tif( preg_match_all($pattern, $str, $out) ) {\r\n\t\treturn array_combine( $out[1], $out[2] );\r\n\t}\r\n\treturn [];\r\n}\r\nfunction getHost(string $uri, string $url): ?string {\r\n\t$segments = parse_url(\r\n\t\tstr_ireplace('.www', '', $uri)\r\n\t);\r\n\t$r = null;\r\n\tif( isset($segments['host']) ) {\r\n\t\t$r = $segments['host'];\r\n\t} \r\n\telse {\r\n\t\t$r = parse_url(\r\n\t\tstr_ireplace('.www', '', $url)\r\n\t);\r\n\t\t$r = $r['host'];\r\n\t}\r\n\treturn $r;\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"При этом алгоритм рассчитан таким образом, что превращает все относительные ссылки документа в абсолютные и фильтрует бесполезные ссылки содержащие хэш фрагменты."}},{"type":"paragraph","data":{"text":"Мы собираем только ссылки на этот же ресурс для того, чтобы crawler не убежал слишком далеко, а корректно закончил индексацию всего ресурса."}},{"type":"header3","data":{"level":3,"text":"Поддержка Robots.txt"}},{"type":"paragraph","data":{"text":"Не все ссылки бывают полезны и не все страницы несут какую либо смысловую нагрузку. Чтобы профильтровать информацию добавим поддержку подгрузки файла robots.txt:"}},{"type":"code","data":{"code":"function getRobotsTxt(string $url): ?iterable {\r\n\t// location of robots.txt file, only pay attention to it if the server says it exists\r\n\t$hrobots = curl_init($url .'/robots.txt');\r\n\tcurl_setopt($hrobots, CURLOPT_RETURNTRANSFER, TRUE);\r\n\t$response = curl_exec($hrobots);\r\n\t$httpCode = curl_getinfo($hrobots, CURLINFO_HTTP_CODE);\r\n\tif( (int)$httpCode === 200 ) {\r\n\t\t$robots = explode(\"\\n\", $response);\r\n\t}\r\n\telse {\r\n\t\t$robots = null;\r\n\t}\r\n\tcurl_close($hrobots);\r\n\treturn array_filter(\r\n\t\tpreg_replace([\r\n\t\t\t\t'/#.*/m', // 1 :: trim single lines comments exclude quoted strings\r\n\t\t\t\t'!\\s+!', // 2 :: trim multiple spaces\r\n\t\t\t\t'/\t/' // 3 :: trim tabulations\r\n\t\t\t], \r\n\t\t\t[\r\n\t\t\t\t'', \r\n\t\t\t\t' ', \r\n\t\t\t\t''\r\n\t\t\t], $robots\r\n\t\t)\r\n\t);\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Загружаем мы robots.txt только единожды за проход и сохраняем полученный массив правил в переменную:"}},{"id":"a9c921d6-8d5e-4865-8ecb-5cd740c4dcea","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"$robotstxt = getRobotsTxt($url);"}},{"type":"paragraph","data":{"text":"Далее нам понадобится обработчик правил robots.txt. Для этого используем функцию:"}},{"type":"code","data":{"code":"function indexingAllowed(?iterable $robots, string $xurl): ?bool {\r\n\tif( !$robots ) {\r\n\t\treturn null;\r\n\t}\r\n\t// Parse url to retrieve host and path\r\n\t$parsed = parse_url($xurl);\r\n\t$rules = [];\r\n\t$ruleApplies = null;\r\n\t\r\n\tforeach( $robots as $line ) {\r\n\t\t// Following rules only apply if User-agent matches $useragent or '*'\r\n\t\tif( preg_match('/^\\s*User-agent: (.*)/i', $line, $match) ) {\r\n\t\t\t$ruleApplies = preg_match('/(\\*)/i', $match[1]);\r\n\t\t\tcontinue;\r\n\t\t}\r\n\t\tif( $ruleApplies ) {\r\n\t\t\tlist($type, $rule) = explode(':', $line, 2);\r\n\t\t\t$type = trim(strtolower($type));\r\n\t\t\t// add rules that apply to array for testing\r\n\t\t\t$rules[] = [\r\n\t\t\t\t'type' => $type,\r\n\t\t\t\t'match' => preg_quote(trim($rule), '/')\r\n\t\t\t];\r\n\t\t}\r\n\t}\r\n\t\r\n $isAllowed = true;\r\n\t$currentStrength = 0;\r\n\tforeach( $rules as $rule ) {\r\n\t\t// Check if page hits on a rule\r\n\t\tif( preg_match(\"/^{$rule['match']}/\", $parsed['path']) ) {\r\n\t\t\t// Prefer longer (more specific) rules and Allow trumps Disallow if rules same length\r\n\t\t\t$strength = strlen($rule['match']);\r\n\t\t\tif( $currentStrength < $strength ) {\r\n\t\t\t\t$currentStrength = $strength;\r\n\t\t\t\t$isAllowed = $rule['type'] === 'allow' ? true : null;\r\n\t\t\t} \r\n\t\t\telse if( $currentStrength === $strength && $rule['type'] === 'allow' ) {\r\n\t\t\t\t$currentStrength = $strength;\r\n\t\t\t\t$isAllowed = true;\r\n\t\t\t}\r\n\t\t}\r\n\t}\r\n\treturn $isAllowed;","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"При передаче аргумента $xurl происходит сверка с правилами robots.txt и функция возвращает либо true либо null, что символизирует разрешение на добавление в базу данных."}},{"type":"header3","data":{"level":3,"text":"Обработка индекса"}},{"type":"paragraph","data":{"text":"Чтобы базу индекса могли индексировать только администраторы и писатели ресурса мы обернем код в проверку роли и добавим фильтр запроса. Черпать аргумент будем из контроллера переменных SV['g']."}},{"type":"code","data":{"code":"if( isset(SV['g']['host']) && in_array(ROLE, ['Admin', 'Writer']) ) {\r\n $url = filter_var('https://'. SV['g']['host']['value'], FILTER_VALIDATE_URL);\r\n // исходник паука\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Таким образом мы получаем значение host из GET запроса и можем приступить к созданию поискового индекса."}},{"type":"header3","data":{"level":3,"text":"Обработчик индекса поисковой базы"}},{"type":"paragraph","data":{"text":"Изначально мы делаем запрос с проверкой наличия искомого URL в базе данных. Если индекс уже существует — просто выясняем свежий ли он, а если его нет, то запишем результат в базу данных. Попутно мы делаем запрос к robots.txt, распаковываем ссылки и метаданные из документов."}},{"type":"paragraph","data":{"text":"Отвечает за это следующая функция:"}},{"type":"code","data":{"code":"function setIndex( ?iterable $robotstxt, string $url, Model $model, iterable &$indexed ) {\r\n\tif( !in_array($url, $indexed) ) {\r\n\t$indexed[] = $url;\r\n\t$info = getUri($url);\r\n\t$xdata = $info[0];\r\n\t$xdate = $info[1];\r\n\tif( $xdata ) {\r\n\t\t$meta_data = parse(\r\n\t\t$xdata, $url\r\n\t\t);\r\n\t\tif( $meta_data ) {\r\n\t\t\tforeach( $meta_data['href'] as $uri ) {\r\n\t\t\t\t$testIndex = iterator_to_array(\r\n\t\t\t\t$model::get('index', [\r\n\t\t\t\t\t\t'criterion' => 'uri::'. $uri,\r\n\t\t\t\t\t\t'course' => 'backward',\r\n\t\t\t\t\t\t'sort' => 'id'\r\n\t\t\t\t\t])\r\n\t\t\t\t)['model::index'];\r\n\t\t\t\tif( $testIndex ) {\r\n\t\t\t\t\t$testIndex = $testIndex[0];\r\n\t\t\t\t\tif( indexingAllowed( $robotstxt, $uri) ) {\r\n\t\t\t\t\t\tif( !in_array($uri, $indexed) ) {\r\n\t\t\t\t\t\t\t$xinfo = getUri($uri);\r\n\t\t\t\t\t\t\t$udata = $xinfo[0];\r\n\t\t\t\t\t\t\t$udate = $xinfo[1];\r\n\t\t\t\t\t\t\tif( $udata ) {\r\n\t\t\t\t\t\t\t\t$xmeta_data = parse(\r\n\t\t\t\t\t\t\t\t\t$udata, $uri\r\n\t\t\t\t\t\t\t\t);\r\n\t\t\t\tif( $xmeta_data ) {\r\n\t\t\t\t\t$hash = md5($xmeta_data['text']);\r\n\t\t\t\t\t\t$double_check = iterator_to_array(\r\n\t\t\t\t\t\t\t$model::get('index', [\r\n\t\t\t\t\t\t\t\t\t'criterion' => 'hash::'. $hash,\r\n\t\t\t\t\t\t\t\t\t'course' => 'forward',\r\n\t\t\t\t\t\t\t\t\t'sort' => 'id'\r\n\t\t\t\t\t\t\t\t])\r\n\t\t\t\t\t\t\t)['model::index'];\r\n\t\t\t\t\t\t$adate = date('d-m-Y');\r\n\t\t\t\t\t\t$idate = explode(' ', $testIndex['date'])[1]; \r\n\t\t\t\t\t\tif( $hash !== $testIndex['hash'] && !$double_check ) {\r\n\t\t\t\t\t\t\tif( $adate !== $idate ) {\r\n\t\t\t\t\t\t\t\t// Intelligent update when uri exist and expired\r\n\t\t\t\t\t\t\t\t$model::erase('index', [\r\n\t\t\t\t\t\t\t\t\t'criterion' => 'uri::'. $uri \r\n\t\t\t\t\t\t\t\t]);\r\n\t\t\t\t\t\t\t\t// Intelligent update when uri exist and expired\r\n\t\t\t\t\t\t\t\t$model::set('index', [\r\n\t\t\t\t\t\t\t\t\t'uri' => $uri,\r\n\t\t\t\t\t\t\t\t\t'host' => getHost($url, $url),\r\n\t\t\t\t\t\t\t\t\t'hash' => $hash,\r\n\t\t\t\t\t\t\t\t\t'date'\t\t => $udate,\r\n\t\t\t\t\t\t\t\t\t'title' => $xmeta_data['title'],\r\n\t\t\t\t\t\t\t\t\t'description' => $xmeta_data['meta']['og:description'] ?? $xmeta_data['meta']['description'] ?? 'null',\r\n\t\t\t\t\t\t\t\t\t'content' => $xmeta_data['text'],\r\n\t\t\t\t\t\t\t\t\t'criterion' => 'uri'\r\n\t\t\t\t\t\t\t\t]);\r\n\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t\tforeach( $xmeta_data['href'] as $xlnk ) {\r\n\t\t\t\t\t\t\t\tif( indexingAllowed( $robotstxt, $uri) ) {\r\n\t\t\t\t\t\t\t\t\tsetIndex( $robotstxt, $uri, $model, $indexed );\r\n\t\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t}\r\n\t\t\t\t}\r\n\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t}\r\n\t\t\t\t\t}\r\n\t\t\t\t} \r\n\t\t\t\telse {\r\n\t\t\t\t\tif( indexingAllowed( $robotstxt, $url) ) {\r\n\t\t\t\t\t\tif( !in_array($uri, $indexed) ) {\r\n\t\t\t\t\t\t\t$xinfo = getUri($uri);\r\n\t\t\t\t\t\t\t$udata = $xinfo[0];\r\n\t\t\t\t\t\t\t$udate = $xinfo[1];\r\n\t\t\t\t\t\t\tif( $udata ) {\r\n\t\t\t\t\t\t\t\t$xmeta_data = parse(\r\n\t\t\t\t\t\t\t\t\t$udata, $uri\r\n\t\t\t\t\t\t\t\t);\r\n\t\t\t\tif( $xmeta_data ) {\r\n\t\t\t\t\t$hash = md5($xmeta_data['text']);\r\n\t\t\t\t\t$double_check = iterator_to_array(\r\n\t\t\t\t\t\t$model::get('index', [\r\n\t\t\t\t\t\t\t\t'criterion' => 'hash::'. $hash,\r\n\t\t\t\t\t\t\t\t'course' => 'forward',\r\n\t\t\t\t\t\t\t\t'sort' => 'id'\r\n\t\t\t\t\t\t\t])\r\n\t\t\t\t\t\t)['model::index'];\r\n\t\t\t\t\tif( !$double_check ) {\r\n\t\t\t\t\t\t// Intelligent insert when uri not indexed\r\n\t\t\t\t\t\t$model::set('index', [\r\n\t\t\t\t\t\t\t'id' => 0,\r\n\t\t\t\t\t\t\t'uri' => $uri,\r\n\t\t\t\t\t\t\t'host' => getHost($url, $url),\r\n\t\t\t\t\t\t\t'date'\t\t => $udate,\r\n\t\t\t\t\t\t\t'hash' => $hash,\r\n\t\t\t\t\t\t\t'title' => $xmeta_data['title'],\r\n\t\t\t\t\t\t\t'description' => $xmeta_data['meta']['og:description'] ?? $xmeta_data['meta']['description'] ?? 'null',\r\n\t\t\t\t\t\t\t'content' => $xmeta_data['text'],\r\n\t\t\t\t\t\t]);\r\n\t\t\t\t\t\tforeach( $xmeta_data['href'] as $xlnk ) {\r\n\t\t\t\t\t\t\tif( indexingAllowed( $robotstxt, $uri) ) {\r\n\t\t\t\t\t\t\t\tsetIndex( $robotstxt, $uri, $model, $indexed );\r\n\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t}\r\n\t\t\t\t\t}\r\n\t\t\t\t}\r\n\t\t\t\t\t\t\t}\r\n\t\t\t\t\t\t}\r\n\t\t\t\t\t}\r\n\t\t\t\t}\r\n\t\t\t\tsleep(.5);\r\n\t\t\t}\r\n\t\t\t}\r\n\t\t}\r\n\t}\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"После записи основной страницы, с которой начинается индексация, происходит обработка всех URL, которые она содержит. Здесь работают две модели:"}},{"type":"code","data":{"code":"$testIndex = iterator_to_array(\r\n $model::get('index', [\r\n\t\t'criterion' => 'uri::'. $uri,\r\n\t\t'course' => 'backward',\r\n\t\t'sort' => 'id'\r\n\t])\r\n)['model::index'];","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Модель GET проверяет наличие адреса в индексе."}},{"type":"code","data":{"code":"// Intelligent update when uri exist and expired\r\n$model::set('index', [\r\n\t'uri' => $uri,\r\n\t'host' => getHost($url, $url),\r\n\t'hash' => $hash,\r\n\t'date' => $udate,\r\n\t'title' => $xmeta_data['title'],\r\n\t'description' => (isset( $xmeta_data['meta']['og:description'] ) ? $xmeta_data['meta']['og:description'] : (isset($xmeta_data['meta']['description']) ? $xmeta_data['meta']['description'] : 'null')),\r\n\t'content' => $xmeta_data['text'],\r\n\t'criterion' => 'uri'\r\n]);","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Модель SET использует автоматическое чтение схемы БД из SBQ и выполняет запрос записи или обновления автоматически."}},{"type":"paragraph","data":{"text":"Алгоритм использует timeout .5 секунды между запросами по ссылкам и не нагружает ресурсы, когда происходит сканирование."}},{"id":"18f7a652-cf33-46e5-94bb-b13f2f621388","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Стоит обратить внимание на hash. В данном случае мы сначала распаковываем тело документа, а затем избавляемся от всех тегов. MD5 полученного текста мы будем использовать для проверки актуальности данных."}},{"type":"paragraph","data":{"text":"Если страницы изменялись, то алгоритм подметит это при проверке:"}},{"type":"code","data":{"code":"$hash = md5($xmeta_data['text']);\r\nif( $hash !== $testIndex['hash'] ) { \r\n// Intelligent update when uri exist and expired\r\n$model::erase('index', [\r\n\t'criterion' => 'uri::'. $uri \r\n]);\r\n// обновляем\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Для того, чтобы не загружать заново обработанные в процессе прохода ссылки мы передаем аргумент &$indexed по ссылке и на каждую итерацию заполняет глобальный массив ссылками при этом проверяя, что url нет в списке."}},{"type":"header3","data":{"level":3,"text":"Выполняем поисковые запросы"}},{"type":"paragraph","data":{"text":"Обладая собственным индексом мы можем приступить к созданию самого сервиса поиска. Для этого мы применим экспертную модель работающую на основе SBQ:"}},{"type":"code","data":{"code":"// Picking results\r\n$results = [];\r\n// Index picking\r\nforeach( iterator_to_array(\r\n $model::get( 'index', [\r\n 'criterion' => 'content::'. $qs,\r\n 'bound' => [\r\n 5000, // limit\r\n ],\r\n 'course' => 'forward', // backward\r\n 'expert' => true,\r\n 'sort' => 'id'\r\n ])\r\n)['model::index'] as $k => $v ) {\r\n if( preg_match('/'. $qs .'/i', $v['content']) ) {\r\n $rating = iterator_to_array(\r\n $model::get( 'index_ratings', [\r\n 'criterion' => 'index_id::'. $v['id'],\r\n 'course' => 'forward',\r\n 'sort' => 'id'\r\n ])\r\n )['model::index_ratings'];\r\n $snippet = search( $qs, $v, $rating, $model );\r\n $results[ $snippet[0] ][] = $snippet[1];\r\n }\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Здесь мы не используем классический LIKE MySQL запрос, а применяем RegExp поиска по базе данных."}},{"type":"paragraph","data":{"text":"Также не забудем, что нам нужно реализовать сортировку по рейтингу, а для этого мы получаем все рейтинги связанного url."}},{"type":"paragraph","data":{"text":"Сам аргумент qs мы будем брать из контроллера переменных SV['p'] (стек POST запросов):"}},{"type":"code","data":{"code":"$query = null;\r\nif( !empty(SV['p']) ) {\r\n if( isset(SV['p']['revolver_pick_query']) ) {\r\n if( (bool)SV['p']['revolver_pick_query']['valid'] ) {\r\n $query = SV['p']['revolver_pick_query']['value'];\r\n }\r\n }\r\n if( isset(SV['p']['revolver_captcha']) ) {\r\n if( (bool)SV['p']['revolver_captcha']['valid'] ) {\r\n if( $captcha::verify(SV['p']['revolver_captcha']['value']) ) {\r\n define('form_pass', 'pass');\r\n }\r\n }\r\n }\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Также в этом коде происходит сверка значения captcha, которая усиливает надёжность и предотвращает спам запросы с удаленных серверов."}},{"type":"paragraph","data":{"text":"Сама форма строится с использованием Form API и ее структура (FS) выглядит следующим образом:"}},{"type":"code","data":{"code":"$form_parameters = [\r\n // main para\r\n 'id' => 'pick-query-box',\r\n 'class' => 'revolver__pick-query-box revolver__new-fetch',\r\n 'method' => 'post',\r\n 'action' => RQST,\r\n 'encrypt' => true,\r\n 'captcha' => true,\r\n 'submit' => 'Pick it',\r\n // included fieldsets\r\n 'fieldsets' => [\r\n // fieldset contents parameters\r\n 'fieldset_1' => [\r\n 'title' => 'Pick query box',\r\n // wrap fields into label\r\n 'labels' => [\r\n 'label_1' => [\r\n 'title' => 'Query phrase',\r\n 'access' => 'comment',\r\n 'auth' => 'all',\r\n 'fields' => [\r\n 0 => [\r\n 'type' => 'input:text',\r\n 'name' => 'revolver_pick_query',\r\n 'placeholder' => 'Query phrase',\r\n 'required' => true\r\n ],\r\n ],\r\n ],\r\n ],\r\n ],\r\n ],\r\n];","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"К форме подключен автоматический перевод заголовков полей и меток, а сама структура формы должна быть передана в CLASS:"}},{"type":"code","data":{"code":"// Construct Picks query box\r\n$output .= $form::build( $form_parameters );","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Теперь наша форма работает и умеет передавать пост параметр динамически используя fetch запрос, а каптча предотвращает перегрузку и генерацию запросов ботами."}},{"type":"header3","data":{"level":3,"text":"Алгоритм ранжирования"}},{"type":"paragraph","data":{"text":"Сначала мы отсортируем результаты по рейтингу, а дальше перетасуем их в пределах своей цифры рейтинга:"}},{"type":"code","data":{"code":"// Sort results by rating\r\nksort($results);\r\nforeach( array_reverse($results) as $r ) {\r\n shuffle( $r ); // randomize positions\r\n foreach( $r as $s ) {\r\n $output .= $s;\r\n }\r\n}","language":"php lazy-code"}},{"type":"header3","data":{"level":3,"text":"Пишем обработку сниппета"}},{"type":"paragraph","data":{"text":"Нам осталось передать поля выбранные предварительным регулярным выражением из базы данных и генерировать сниппет поисковой выдачи."}},{"type":"paragraph","data":{"text":"Мы будем выбирать фрагмент из текста и помечать совпадение запросу:"}},{"type":"code","data":{"code":"function search( string $qs, iterable $v, ?iterable $crating, Model $model ): iterable {\r\n $ptitle = htmlspecialchars_decode($v['title']);\r\n $pdescr = htmlspecialchars_decode($v['description']);\r\n $rgxp = '#[^\\p{L}:;._,? -]+#u';\r\n if( $pdescr === 'null' ) { // use short snippet of content as description\r\n $pdescr = preg_replace($rgxp, '', substr(\r\n html_entity_decode(\r\n $v['content']\r\n ), 0, 100)\r\n ) .'...';\r\n } \r\n else {\r\n $pdescr = preg_replace($rgxp, '', substr(\r\n html_entity_decode(\r\n $pdescr\r\n ), 0, 100) .'...'\r\n );\r\n }\r\n /* Rating block */\r\n $crate = 0;\r\n if( $crating ) {\r\n foreach( $crating as $r => $rv ) {\r\n $crate += $rv['rate'];\r\n }\r\n $crate /= count( $crating ); \r\n }\r\n else {\r\n $crating = [];\r\n }\r\n $output = '

';\r\n $output .= '';\r\n $output .= str_ireplace( $qs, ''. $qs .'', $ptitle) .'';\r\n $output .= ''. (isset($v['date']) ? $v['date'] : date('d-m-Y h:i')) .'';\r\n $output .= ''. str_ireplace( $qs, ''. $qs .'', $pdescr ) .'';\r\n $replace = trim(\r\n preg_replace(\r\n ['/ +/', '/~\\w*~/', '/<[^>]*>/' ],\r\n [' ', ' ', ''],\r\n str_replace(\r\n [ ' ', \"\\n\", \"\\r\" ], \r\n '',\r\n html_entity_decode(\r\n $v['content'], ENT_QUOTES, 'UTF-8'\r\n )\r\n )\r\n )\r\n );\r\n $snippet = preg_split('/'. $qs .'/i', $replace);\r\n $c = 1;\r\n foreach( $snippet as $snip ) {\r\n $length = strlen( $snip ) * .3;\r\n $xlength = strlen( explode( $qs, $snip )[0] ); \r\n if( $c % 2 !== 0 ) {\r\n $highlight_1 = substr( $snip, $xlength * .3, $xlength );\r\n }\r\n else {\r\n $highlight_2 = substr( $snip, 0, $length );\r\n }\r\n $c++;\r\n }\r\n $output .= '... '. preg_replace($rgxp, '', $highlight_1) . ''. $qs .''. preg_replace($rgxp, '', $highlight_2) .' ...';\r\n $tpe = 'index';\r\n $output .= '

';\r\n $output .= '

';\r\n $output .= ''. floor($crate) .' / 5 #'. count($crating) .'';\r\n $output .= '

';\r\n $output .= '

';\r\n return [ floor($crate), $output ];\r\n}","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Здесь пришлось повозиться. Простой подход совсем не подразумевал, что PHP начнет обрабатывать UTF-8 корректно, но я смог добиться работы с русским и английским языками."}},{"type":"code","data":{"code":"$output .= '

';\r\n$output .= '

';\r\n$output .= ''. floor($crate) .' / 5 #'. count($crating) .'';\r\n$output .= '

';\r\n$output .= '

';\r\n$output .= ''. floor($crate) .' / 5 #'. count($crating) .'';\r\n$output .= '

';","language":"php lazy-code"}},{"type":"paragraph","data":{"text":"Это обычный список возможностью выбора одного из 5ти вариантов голосования по шкале звезд. Голосовать мы предоставим возможность только зарегистрированным пользователям не более одно раза за ссыку, что исключит факт накрутки."}},{"type":"paragraph","data":{"text":"Сам JavaScript для обработки голоса находится в файле /Interface/interface.js и он также подключен к другим материалам подвергаемым голосованию (новости, страницы блога, страницы форума, комментарии и так далее)."}},{"type":"code","data":{"code":"setTimeout(() => {\r\n R.event('.revolver-rating li', 'click::lock', (e) => {\r\n e.preventDefault();\r\n let paramsBlock = e.target.closest('ul');\r\n let rateValue = e.target.dataset.rated;\r\n let ratingType = paramsBlock.dataset.type;\r\n if( !R.storage('rate-'+ ratingType +'-'+ paramsBlock.dataset.node, 'get') ) {\r\n R.removeClass(paramsBlock.querySelectorAll('li'), 'point');\r\n R.addClass([ e.target ], 'point');\r\n let data = new FormData();\r\n data.append( btoa('revolver_rating_node'), R.utoa( paramsBlock.dataset.node +'~:::~text~:::~'+ -1) );\r\n data.append( btoa('revolver_rating_user'), R.utoa( paramsBlock.dataset.user +'~:::~text~:::~'+ -1) );\r\n data.append( btoa('revolver_rating_value'), R.utoa( rateValue +'~:::~text~:::~'+ -1) );\r\n data.append( btoa('revolver_rating_type'), R.utoa( paramsBlock.dataset.type +'~:::~text~:::~'+ -1) );\r\n R.FormData = data;\r\n // Perform parameterized fetch request\r\n R.fetch('/rating-d/', 'POST', 'text', true, function() {\r\n R.storage('rate-'+ ratingType +'-'+ paramsBlock.dataset.node +'=1', 'set');\r\n R.FormData = null;\r\n console.log('Node rated :: '+ paramsBlock.dataset.node +'::'+ paramsBlock.dataset.user +'::'+ rateValue);\r\n setTimeout(() => {\r\n R.fetchRoute(true);\r\n }, 1000);\r\n });\r\n } \r\n else {\r\n console.log('You already rate node '+ paramsBlock.dataset.node);\r\n }\r\n });\r\n}, 1000);","language":"javascript lazy-code"}},{"type":"paragraph","data":{"text":"Отдельно обратим внимание на обработку голосования. В Revolver CMF уже есть функциональность для голосования и она располагается в сервисе в файле /Kernel/Routes/RouteRating.php."}},{"id":"704ca055-b80f-4139-9bf5-b251ffca5dce","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Handler голосования автоматически подключается к fetch, а нам осталось только добавить параметр $tpe и прописать таблицу для которой устанавливаются голоса:"}},{"type":"code","data":{"code":"case 'index':\r\n if( Auth ) {\r\n $model::set('index_ratings', [\r\n 'index_id' => $node,\r\n 'user_id' => $user,\r\n 'rate' => $value\r\n ]);\r\n }\r\n break;","language":"php lazy-code"}},{"type":"header2","data":{"level":2,"text":"Будущее Pick"}},{"type":"paragraph","data":{"text":"В будущем, в Revolver CMF будет интегрирована опция связывания индексов и поисковая база расшириться результатами других инсталляций."}},{"type":"paragraph","data":{"text":"Это мне кажется идеально. Во первых, пользователи сами решают какие сайты индексировать, а во вторых положение в поисковой выдаче — это продукт оценки живых людей, которые выполняют поисковые запросы."}},{"type":"paragraph","data":{"text":"Выдачи с разных сайтов могут отличаться и выдача будет формироваться на основе рейтингов разных включенных в индекс ресурсов."}},{"type":"paragraph","data":{"text":"Здесь найдется и место для нейронной сети, чтобы было интереснее и круче."}},{"type":"paragraph","data":{"text":"Запросы будут монетизироваться. Стоимость использования внешнего индекса будет определяться мощностью поисковой базы (размером тематического индекса) и частотой запросов. Также есть мысли о создании собственной валюты (не крипто), которую можно будет приобретать и выводить через основной сайт проекта Pick."}},{"type":"paragraph","data":{"text":"Скачать дистрибутив RevolveR CMF с поисковой системой Pick можно со страницы проекта GitHub."}},{"type":"paragraph","data":{"text":"Сейчас индекс поиска официального сайта почти пустой, но протестировать поисковую систему можно здесь."}},{"type":"paragraph","data":{"text":" "}}]}

Ошибка в настройках сайта