Robots.txt

Материал из AOW

Перейти к: навигация, поиск

Содержание

Общие сведения

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.


Директивы

User-agent
робот, к которому применяется следующее правило.
Disallow
URL-адреса, которые необходимо заблокировать.
Disallow:/ *?
Allow
имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
Allow: /album1/photo.html
Disallow: /album1/
Sitemap
Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все):
User-agent: *
Disallow: /

Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
Host
Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt.
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru
Crawl-delay
устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.
Clean-param
Если адреса страниц вашего сайта содержат динамические параметры которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forumt/*.php
Clean-param: someTrash&otherTrash
Request-rate
Request-rate: 1/5         # загружать не более одной страницы за пять секунд
Request-rate: 100/3*60*60 # загружать не более ста страниц за три часа
Visit-time
Visit-time: 0600-0845     # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.


Yandex. Поддерживаемые директивы.

  • User-agent
    • Yandex
    • *
  • Allow
  • Disallow
  • Sitemap
  • Host
  • Crawl-delay
  • Clean-param


Google. Поддерживаемые директивы.

  • User-agent
    • Googlebot
    • Googlebot-Image (бот Картинки Google)
    • MediaPartners-Google (бот AdSense-рекламы от Google)
    • ...
    • *
  • Allow
  • Disallow
  • Sitemap

Примечания

Спецсимволы
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*'. Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$'.
Ограничение на размер файла
При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими.

Рабочий пример

User-agent: *
Disallow: /page/        # не индексировать страницы, URL которых начинается с /page/
Disallow: /search?      # не индексировать страницу поисковой выдачи
Disallow: /users/registration/    # регистрации
Disallow: /users/auth/            # авторизации
Disallow: /users/restore/         # восстановления пароля

User-agent: Yandex
Clean-param: currency / # игнорировать параметр currency при индексации страниц
Host: zlgn.ru           # главное зеркало сайта

User-agent: Googlebot
Disallow: /*?currency=  # не индексировать страницы со служебным URL для переключения валюты


Ссылки на оригинальные статьи

http://help.yandex.ru/webmaster/?id=996567#996571

https://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449

http://seopult.ru/subscribe.html?id=64

Источник — «http://doc.artofweb.ru/doc/Robots.txt»
Личные инструменты

Разработка веб-сайтов, автоматизация.
По всем вопросам обращайтесь по телефонам:

+7 495 640 29 90
http://artofweb.ru