|
aranea.ru || ПРОДВИЖЕНИЕ САЙТА В ИНТЕРНЕТЕ | Что такое роботы?
Что такое роботы?Этот раздел – очень краткое изложение работ Martijn Koster, с которыми вы можете ознакомиться на сайте www.robotstxt.org (на английском языке). Если вы хотите получить более подробную информацию о роботах, правилах написания и регистрации своих роботов и т.д., обратитесь к работам этого автора. Если у вас есть доступ к лог-файлам сервера, то вы можете обнаружить следующие записи: 65.55.208.187 - - [01/Dec/2007:02:42:58 +0300] "GET /robots.txt HTTP/1.0" 404 289 "-" "msnbot/1.0 (+http://search.msn.com/msnbot.htm)" 87.250.253.249 - - [01/Dec/2007:02:45:36 +0300] "GET /robots.txt HTTP/1.1" 404 305 "-" "Yandex/1.01.001 (compatible; Win16; P)" 81.176.67.106 - - [01/Dec/2007:03:39:42 +0300] "GET /css/doc/cssdoc.html HTTP/1.1" 404 310 "-" "StackRambler/2.0 (MSIE incompatible)" 193.19.82.68 - - [01/Dec/2007:04:59:58 +0300] "GET /robots.txt HTTP/1.0" 404 293 "http://majestic12.co.uk/bot.php?I=376B526F4E1E745F2864DC520AFAE713-077EC227933CECBE-6B1F26C653C4418C-buz.aranea.ru" "Mozilla/5.0 (compatible; MJ12bot/v1.2.1; http://www.majestic12.co.uk/bot.php?+)" 74.6.19.71 - - [01/Dec/2007:06:45:31 +0300] "GET /robots.txt HTTP/1.0" 404 289 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" 66.249.72.240 - - [13/Nov/2007:10:35:34 +0300] "GET /robots.txt HTTP/1.1" 404 305 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.66.163 - - [01/Dec/2007:08:08:16 +0300] "GET /robots.txt HTTP/1.1" 404 301 "-" "Mediapartners-Google" 72.36.115.52 - - [01/Dec/2007:20:02:46 +0300] "GET /robots.txt HTTP/1.0" 404 289 "-" "CazoodleBot/Nutch-0.9-dev (CazoodleBot Crawler; http://www.cazoodle.com; mqbot@cazoodle.com)" 195.161.113.41 - - [13/Nov/2007:10:39:24 +0300] "GET / HTTP/1.0" 200 40587 "-" "TurtleScanner/1.4 (compatible; Win16; S)" Это "следы" посещения сайта роботами. Здесь сразу можно распознать роботы хорошо известных поисковых систем Yandex, Rambler, Google, Yahoo; а также ряд совершенно неизвестных. Робот – это программа, которая автоматически просматривает и индексирует структуру гипертекста и рекурсивно извлекает все документы, на которые ссылается текущая страница. На английском языке роботы имеют различные названия – Web Wander, Web Crawler, Spider, Ant и т.д. Что за файл robots.txt?Если вы посмотрите, приведенный выше пример лог-файла, то увидите, что, как правило, роботы сначала посещают файл robots.txt, хотя, например, TurtleScanner/1.4 не стал посещать этот файл. Возьмем запись из выше указанного примера записи лог-файла: 66.249.72.240 - - [13/Nov/2007:10:35:34 +0300] "GET /robots.txt HTTP/1.1" 404 305 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Из этой записи понятно, что поисковый робот Google начал сканирование сайта с файла robots.txt. В данном случае файл отсутствует, и робот продолжает свою работу без ограничений. Файл robots.txt предназначен для указания поисковым роботам разделов сайта, которые нельзя им "посещать". К сожалению не все роботы просматривают такие файлы, так как не существует единой политики в отношении создателей роботов. К тому же, существуют люди, которые не собираются выполнять какие-либо правила. Поэтому, доступ к определенным разделам сайта необходимо ограничивать с помощью специальных средств сервера. Однако, широко распространенные роботы: Yandex/1.01.001, StackRambler/2.0, Googlebot/2.1, придерживаются правил, применяемых для robots.txt. Поэтому, мы приводим примеры формата для файла robots.txt. Файл robots.txt подсказывает, что роботу не следует сканировать. Такие нежелательные места могут быть следующими:
Формат файла robots.txt использует два ключевых слова: User-Agent: – для указания названия одного робота или нескольких, разделенных между собой пробелами. Символ "*" используется для обозначения названий всех роботов. Disallow: – для указания папок, запрещенных для посещения роботов. Путь может быть относительным или абсолютным. Символ "#" используется для комментариев. Пример 1. Всем роботам запрещено индексирование сайта
Пример 2. Всем роботам запрещено индексировать папку для временных файлов
Пример 3. Всем роботам запрещено индексировать папку /admin/, а роботу SomeRobot (придуман!) разрешено – все.
Использование тега META для роботовДля пользователей, которые не могут контролировать файл robots.txt, есть другая возможность для управления поведением роботов с помощью тега META и его атрибутами name="ROBOTS", name="KEYWORDS", name="DESCRIPTION" и name="DOCUMENT-STATE", со значениями атрибута content, указанными ниже. Формат записи: <META name="ROBOTS" content="условия_для_роботов"> Условия для роботов:
<META name="KEYWORDS" content="ключевые_слова"> Ключевые слова страницы, разделенные пробелом или запятыми. <META name="DESCRIPTION" content="текст"> Краткое описание содержания страницы для поисковой системы (естественно, без тегов). <META name="DOCUMENT-STATE" content="STATIC"> <META name="DOCUMENT-STATE" content="DYNAMIC"> Сообщают статус документа. Если документ динамический, робот не будет его индексировать. |