Файл robots.txt

Файл robots.txt - это простой текстовый документ, содержащий инструкцию запрета для поискового механизма индексировать определенные разделы вашего веб-сайта. Такой файл легко создать в редакторе NotePad (для PC) или SimpleText (для Маc).

Файл правила robots.txt должны быть размещен в корневом каталоге вашего сервера. Другими словами, запишите ваш файл robots.txt в том же каталоге на сервере, где хранится ваша главная страница (рис. 2.43). URL всех файлов robots.txt будет выглядеть так:

^ http://www.companyname.com/robots.txt

где companyname.com - имя домена вашей компании.

Поисковая система, принимающая во внимание файл robots.txt, запросит этот файл перед сканированием страниц вашего сайта. Например, если ваш сайт целиком находится в разработке и вы не хотите, чтобы поисковые системы брали оттуда какую-то информацию до окончания работ, введите в текстовом редакторе следующий текст:

User-agent: * Disallow: /

Обратите внимание: файл должен называться исключительно robots.txt, именно с таким расширением. Если вы сохраните файл как документ Word (robots.doc), то поисковые системы проигнорируют его.

В приведенном выше примере команда user-agent предписывает поисковому механизму или броузеру следовать инструкции, указанной во второй строке.


Символ звездочки (*), применяемый как показано в примере, позволяет запретить сканирование всем поисковым системам.

В запретительной команде (disallow) нужно указать точные имена каталогов и файлов на вашем сервере, которые вы хотите уберечь от сканирования. В вышеупомянутом примере косая черта (/) предписывает поисковому роботу игнорировать все элементы в корневом каталоге. Другими словами, поисковые системы не будут индексировать ни одну страницу вашего веб-сайта.

Обычно владелец сайта хочет, чтобы поисковые системы игнорировали не все, а только некоторые страницы. Например, на сайтах, где имеются раскрывающиеся меню, они могут быть организованы с помощью Java-Script- или CGI-скриптов. Поскольку эти виды информации не интересны для поисковых роботов, вы можете создать файл robots.txt, содержащий инструкцию запрета на сканирование содержимого каталогов, где присутствуют эти скрипты. Для этого наберите в текстовом редакторе:

User-agent: * Disallow: /cgi-bln/

Поисковые системы, соблюдающие предписания robots.txt, не будут ничего индексировать на сайте, имеющем следующий URL:

http://www.companyname.com/cgi-bin/

Страницы, находящиеся в разработке или представляющие опасность для поисковых роботов, например, страницы с календарем, также лучше указать в файле robots.txt.


Чтобы исключить отдельные страницы из сканирования, в текстовом редакторе (как уже говорилось) наберите:

User-agent: * Disallow: /calendar .html

В данном примере поисковые системы не будут индексировать информацию по следующему адресу:

http://www.companyname.com/calendar.html

Оцените статью: (0 голосов)
0 5 0

Статьи из раздела Продвижение сайтов на эту тему:
Атрибут title гиперссылки
Внутренняя поисковая система веб-сайта
Для чего нужен запрет сканирования
Естественные темы
Замена проблемных символов в URL