Robots.txt
Материал из AOW
Содержание |
Общие сведения
Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Директивы
- User-agent
- робот, к которому применяется следующее правило.
- Disallow
- URL-адреса, которые необходимо заблокировать.
Disallow:/ *?
- Allow
- имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
Allow: /album1/photo.html Disallow: /album1/
- Sitemap
- Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все):
User-agent: * Disallow: / Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
- Host
- Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt.
User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru
- Crawl-delay
- устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.
- Clean-param
- Если адреса страниц вашего сайта содержат динамические параметры которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forumt/*.php Clean-param: someTrash&otherTrash
- Request-rate
Request-rate: 1/5 # загружать не более одной страницы за пять секунд Request-rate: 100/3*60*60 # загружать не более ста страниц за три часа
- Visit-time
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
Yandex. Поддерживаемые директивы.
- User-agent
- Yandex
- *
- Allow
- Disallow
- Sitemap
- Host
- Crawl-delay
- Clean-param
Google. Поддерживаемые директивы.
- User-agent
- Googlebot
- Googlebot-Image (бот Картинки Google)
- MediaPartners-Google (бот AdSense-рекламы от Google)
- ...
- *
- Allow
- Disallow
- Sitemap
Примечания
- Спецсимволы
- При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*'. Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$'.
- Ограничение на размер файла
- При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими.
Рабочий пример
User-agent: * Disallow: /page/ # не индексировать страницы, URL которых начинается с /page/ Disallow: /search? # не индексировать страницу поисковой выдачи Disallow: /users/registration/ # регистрации Disallow: /users/auth/ # авторизации Disallow: /users/restore/ # восстановления пароля User-agent: Yandex Clean-param: currency / # игнорировать параметр currency при индексации страниц Host: zlgn.ru # главное зеркало сайта User-agent: Googlebot Disallow: /*?currency= # не индексировать страницы со служебным URL для переключения валюты
Ссылки на оригинальные статьи
http://help.yandex.ru/webmaster/?id=996567#996571
https://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449

