Синтаксис файла robots.txt

Основной синтаксис файла robots.txt очень прост. Вы указываете название робота (например, googlebot), а затем указываете действие. Робот идентифицируется по агенту пользователя, а затем на следующих строках указываются действия. Вот основные действия, которые вы можете указать:

- Disallow: для тех страниц, доступ к которым вы хотите закрыть от роботов (столько строк Disallow, сколько вам нужно);

- Noindex: для тех страниц, доступ к которым вы хотите закрыть от поискового движка и не индексировать (или удалить из индекса, если они были ранее проиндексированы). Эта функция неофициально поддерживается Google и не поддерживается движками Yahoo! и Bing.

Есть некоторые ограничения:

- каждая группа (агент пользователя/Disallow) должна отделяться пустой строкой, однако внутри группы пустых строк существовать не должно (от строки агента пользователя и до последнего Disallow);

- символ # может использоваться в файле robots.txt для комментариев (все, что находится в строке после символа #, игнорируется). Комментарий можно использовать как на всю строку, так и на остаток строки;

- каталоги и имена файлов чувствительны к регистру: private, Private и private — эти имена для поисковых движков уникальны.

Вот пример файла robots.txt:
User-agent: Googlebot Disallow:
User-agent: msnbot Disallow: /

- заблокировать всем роботам доступ к каталогам tmp и logs User-agent: * Disallow: /tmp/
Disallow: /logs # для каталогов и файлов с названием logs

В этом примере делается следующее:
- роботу Googlebot разрешается заходить куда угодно;
- роботу msnbot запрещается просмотр всего сайта;
- всем роботам (кроме Googlebot) блокируется посещение каталога /tmpA или каталогов (либо файлов) с названием /logs (т.


е. /logs или logs.php).

Обратите внимание, что на поведение Googlebot не влияют такие инструкции, как Disallow: /. Поскольку в файле robots.txt для Googlebot есть персональные инструкции, то он будет игнорировать директивы, помеченные как предназначенные для всех роботов (с использованием звездочки).

Неопытные web-мастера часто встречаются с проблемой, которая возникает тогда, когда у них инсталлирован SSL (чтобы страницы можно было выдавать через HTTP и HTTPS). Файл robots.txt по адресу http://www.yourdomain.com/robots.txt не будет восг1риниматься поисковыми движками как указание насчет просмотра https://www.yourdomain.com. Для этого вам нужно будет создать дополнительный файл robots.txt по адресу https://www.yourdomain.com/robots.txt.

Итак, если вы хотите разрешить просмотр всех страниц вашего сервера HTTP и запретить просмотр всех страниц сервера HTTPS, то вам нужно реализовать следующее:

Для HTTP: User-agent: * Disallow:
Для HTTPS: User-agent: * Disallow: /

Это самые основы применения файлов robots.txt, однако существуют и более сложные методы. Некоторые из этих методов поддерживаются не всеми движками, как это показано в следующем списке:

Crawl delay (Задержка перед просмотром).
Эта директива поддерживается Yahoo!, Bing и Ask.


Она дает указание пауку ждать указанное количество секунд до того, как начать просмотр страниц. Цель этой директивы — снизить нагрузку на сервер издателя:

User-agent: msnbot Crawl-delay: 5

Pattern matching (Сопоставление с образцом).
Сопоставление с образцом используется Google, Yahoo! и Bing. Ценность этой директивы велика. Вы можете делать сопоставление с образцом (при помощи группового символа "звездочка"). Вот пример использования сопоставления с образцом для блокирования доступа ко всем подкаталогам, которые начинаются С private (например: /privatel/, /private2/, /private3/ И Т. Д.):
User-agent; Googlebot Disallow: /private*/

Вы можете обозначить конец строки при помощи знака доллара. Например, для блокирования таких URL, которые заканчиваются на .asp:
User-agent: Googlebot Disallow: /*.asp$

Вы можете пожелать предотвратить доступ роботов к любым URL, которые содержат параметры. Для блокирования доступа ко всем URL, которые содержат знак вопроса, просто используйте знак вопроса:
User-agent: * Disallow: /*?*

Возможности по сопоставлению шаблонов в файле robots.txt более ограничены, чем возможности таких языков программирования, как Perl, так что знак вопроса не имеет никакого специального значения и может использоваться как любой другой символ.

Директива Allow.
Директива Allow поддерживается только в Google, Yahoo! и Ask.


Она работает как противоположность директивы Disallow и дает возможность конкретно указывать те каталоги или страницы, которые можно просматривать. Когда эта возможность реализуется, она может частично перекрыть предыдущую директиву Disallow. Это может пригодиться в том случае, когда были запрещены большие разделы сайта (либо когда запрещен весь сайт целиком).

Вот пример, в котором роботу Googlebot разрешается доступ только в каталог google:
User-agent: Googlebot Disallow: / Allow: /google/

Директива Noindex.
Эта директива работает точно так же, как и команда meta robots noindex (которую мы скоро обсудим). Она говорит поисковым движкам, что надо однозначно исключить страницу из индекса. Поскольку Disallow предотвращает просмотр, но не индексирование, то Noindex может быть очень полезной функцией для того, чтобы гарантировать отсутствие страниц в результатах поиска. Однако по состоянию на октябрь 2009 г. эту директиву в файле robots.txt поддерживает только Google.

Sitemap.
Мы обсуждали XML Sitemap в начале этой главы. Вы можете использовать robots.txt для предоставления пауку механизма автоматического обнаружения местонахождения файла XML Sitemap. Поисковому движку можно сказать о местонахождении этого файла одной простой строкой в файле robots.txt:

Sitemap: sitemap_location
sitemaplocation— это полный URL к Sitemap (такой, как http://www. yourdomain.com/sitemap.xml). Вы можете разместить эту строку в любом месте вашего файла.

Полные указания по применению файла robots.txt смотрите на сайте Robots.txt.org (http://www.robotstxt.org/orig.html). Для экономии времени и сил вы можете также воспользоваться инструментом генерирования файла robots.txt, который разработал Dave Naylor (http://www.davidnaylor.co.uk/the-robotstxt-builder-a-new-tool.html).

Будьте очень осторожны при внесении изменений в файл robots.txt. Например, простая опечатка может внезапно сказать поисковым движкам, что они больше не должны вообще просматривать ваш сайт. После обновления файла robots.txt всегда полезно проверить его при помощи инструмента Test Robots.txt (http:// www.google.com/webmasters/tools/crawl-access) из набора инструментов Google Webmaster Tools.

Оцените статью: (0 голосов)
0 5 0

Статьи из раздела Продвижение сайтов на эту тему:
Java, изображения, аудио и видео
JavaScript и AJAX
Mod_rewrite и ISAPI_Rewrite для перезаписи и перенаправления URL
URL
XML Sitemap