ИНФОРМАЦИЯ,    ДИЗАЙН,    ПЕРЕВОДЫ,    РЕКЛАМА   .   .   .
w a p - с а й т
Информационный портал
Сегодня:  
admin@aranea.ru
+79068922256

  aranea.ru || ПРОДВИЖЕНИЕ САЙТА В ИНТЕРНЕТЕ | Что такое роботы?

Что такое роботы?

Этот раздел – очень краткое изложение работ Martijn Koster, с которыми вы можете ознакомиться на сайте www.robotstxt.org (на английском языке). Если вы хотите получить более подробную информацию о роботах, правилах написания и регистрации своих роботов и т.д., обратитесь к работам этого автора.

Если у вас есть доступ к лог-файлам сервера, то вы можете обнаружить следующие записи:

65.55.208.187 - - [01/Dec/2007:02:42:58 +0300] "GET /robots.txt HTTP/1.0" 
                  404 289 "-" "msnbot/1.0 (+http://search.msn.com/msnbot.htm)"

87.250.253.249 - - [01/Dec/2007:02:45:36 +0300] "GET /robots.txt HTTP/1.1" 
                   404 305 "-" "Yandex/1.01.001 (compatible; Win16; P)"

81.176.67.106 - - [01/Dec/2007:03:39:42 +0300] "GET /css/doc/cssdoc.html HTTP/1.1" 
                   404 310 "-" "StackRambler/2.0 (MSIE incompatible)"

193.19.82.68 - - [01/Dec/2007:04:59:58 +0300] "GET /robots.txt HTTP/1.0" 
                404 293 "http://majestic12.co.uk/bot.php?I=376B526F4E1E745F2864DC520AFAE713-077EC227933CECBE-6B1F26C653C4418C-buz.aranea.ru" 
                "Mozilla/5.0 (compatible; MJ12bot/v1.2.1; http://www.majestic12.co.uk/bot.php?+)"

74.6.19.71 - - [01/Dec/2007:06:45:31 +0300] "GET /robots.txt HTTP/1.0" 404 289 "-" 
                "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

66.249.72.240 - - [13/Nov/2007:10:35:34 +0300] "GET /robots.txt HTTP/1.1" 404 305 "-" 
                "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.66.163 - - [01/Dec/2007:08:08:16 +0300] "GET /robots.txt HTTP/1.1" 404 301 "-" "Mediapartners-Google"

72.36.115.52 - - [01/Dec/2007:20:02:46 +0300] "GET /robots.txt HTTP/1.0" 404 289 "-" "CazoodleBot/Nutch-0.9-dev 
                (CazoodleBot Crawler; http://www.cazoodle.com; mqbot@cazoodle.com)"

195.161.113.41 - - [13/Nov/2007:10:39:24 +0300] "GET / HTTP/1.0" 200 40587 "-" "TurtleScanner/1.4 (compatible; Win16; S)"

Это "следы" посещения сайта роботами. Здесь сразу можно распознать роботы хорошо известных поисковых систем Yandex, Rambler, Google, Yahoo; а также ряд совершенно неизвестных.

Робот – это программа, которая автоматически просматривает и индексирует структуру гипертекста и рекурсивно извлекает все документы, на которые ссылается текущая страница. На английском языке роботы имеют различные названия – Web Wander, Web Crawler, Spider, Ant и т.д.

Что за файл robots.txt?

Если вы посмотрите, приведенный выше пример лог-файла, то увидите, что, как правило, роботы сначала посещают файл robots.txt, хотя, например, TurtleScanner/1.4 не стал посещать этот файл.

Возьмем запись из выше указанного примера записи лог-файла:

66.249.72.240 - - [13/Nov/2007:10:35:34 +0300] "GET /robots.txt HTTP/1.1" 404 305 "-" 
                  "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Из этой записи понятно, что поисковый робот Google начал сканирование сайта с файла robots.txt. В данном случае файл отсутствует, и робот продолжает свою работу без ограничений.

Файл robots.txt предназначен для указания поисковым роботам разделов сайта, которые нельзя им "посещать". К сожалению не все роботы просматривают такие файлы, так как не существует единой политики в отношении создателей роботов. К тому же, существуют люди, которые не собираются выполнять какие-либо правила. Поэтому, доступ к определенным разделам сайта необходимо ограничивать с помощью специальных средств сервера.

Однако, широко распространенные роботы: Yandex/1.01.001, StackRambler/2.0, Googlebot/2.1, придерживаются правил, применяемых для robots.txt. Поэтому, мы приводим примеры формата для файла robots.txt.

Файл robots.txt подсказывает, что роботу не следует сканировать. Такие нежелательные места могут быть следующими:

  • "черные дыры", места с бесконечными адресами URL, в которых робот может "заблудиться";
  • динамически генерируемые страницы;
  • локальная информация, не предназначенная для всего Интернета;
  • и другие.

Формат файла robots.txt использует два ключевых слова:

User-Agent: – для указания названия одного робота или нескольких, разделенных между собой пробелами.

Символ "*" используется для обозначения названий всех роботов.

Disallow: – для указания папок, запрещенных для посещения роботов. Путь может быть относительным или абсолютным.

Символ "#" используется для комментариев.

Пример 1. Всем роботам запрещено индексирование сайта
User-Agent: *

Disallow:/
Пример 2. Всем роботам запрещено индексировать папку для временных файлов
User-Agent: *

Disallow:/tmp/
Пример 3. Всем роботам запрещено индексировать папку /admin/, а роботу SomeRobot (придуман!) разрешено – все.
User-Agent: *

Disallow:/admin/

User-Agent: SomeRobot

Disallow:

Использование тега META для роботов

Для пользователей, которые не могут контролировать файл robots.txt, есть другая возможность для управления поведением роботов с помощью тега META и его атрибутами name="ROBOTS", name="KEYWORDS", name="DESCRIPTION" и name="DOCUMENT-STATE", со значениями атрибута content, указанными ниже.

Формат записи:

<META name="ROBOTS" content="условия_для_роботов">

Условия для роботов:

  • ALL – разрешено индексировать страницу и все ее ссылки.
  • NONE – игнорировать эту страницу.
  • INDEX – разрешено индексировать страницу.
  • NOINDEX – не разрешает сканировать страницу.
  • FOLLOW – разрешает индексировать все ссылки этой страницы.
  • NOFOLLOW – не разрешает индексировать все ссылки этой страницы.

<META name="KEYWORDS" content="ключевые_слова">

Ключевые слова страницы, разделенные пробелом или запятыми.

<META name="DESCRIPTION" content="текст">

Краткое описание содержания страницы для поисковой системы (естественно, без тегов).

<META name="DOCUMENT-STATE" content="STATIC">

<META name="DOCUMENT-STATE" content="DYNAMIC">

Сообщают статус документа. Если документ динамический, робот не будет его индексировать.


← Назад |
Copyright © 2006 -  aranea.ru