WordPress как на ладони
Недорогой хостинг для сайтов на WordPress: wordpress.jino.ru Платформа для конвертации и монетизации трафика

Настройка robots.txt на сайте

Robots.txt — это системный файл, который содержит набор директив для поисковых роботов. Директивы устанавливают правила доступа к определенным страницам, размещенным на сервере. Чтобы роботы правильно распознавали ограничения, внутри документа используется строго определенная структура группировки команд: группа состоит из указания робота, адресата директив; перечисления доступных ему путей; перечисления недоступных для него файлов и каталогов сайта. В статье рассмотрим каждый элемент структуры детальнее.

Структура файла robots.txt

За указание робота, адресата описываемых правил доступа, в файле robots.txt отвечает директива User-agent. По именам самых распространённых User-agent легко узнать то, к какой поисковой системе относится робот:

  • User-agent:* (универсальная директива, которая обращена ко всем поисковым роботам)

  • User-agent: Yandex

  • User-agent: Googlebot

  • User-agent: Bingbot

  • User-agent: YandexImages

  • User-agent: Mail.RU

После директивы, указывающей адресата описываемых правил доступа, с директивой Allow перечисляются разрешенные боту для индексации разделы, страницы, файлы на сервере. С директивой Disallow, соответственно, пишутся запрещенные к индексации пути. Для каждого поискового робота создается собственная группа доступных и недоступных путей. А в конце файла robots.txt обязательно пишется ссылка на полную карту сайта Sitemap.xml.

Пример оформления правил в файле robots.txt для User-agent: *

При формировании файла robots.txt можно и нужно пользоваться записью через регулярные выражения. При записи ссылок в директивах Allow и Disallow будут работать следующие универсальные символы:

  • “*” — заменяет один или несколько символов, идущих подряд;

  • “$” — указывает на конец строки (Disallow: /news$ запрещает боту доступ к разделу /news, но без проблем пускает его индексировать отдельные новости раздела, например, /news/news1.php).

Общие для всех User-agent правила принято прописывать в группе с адресатом User-agent:*, а «поименно» в отдельных группах расписывать только уникальные правила для отдельных роботов.

Что желательно закрыть для доступа через robots.txt

Специалисты AgencyIMA рекомендуют формировать уникальный robots.txt для каждого проекта, потому что даже два сайта на одной и той же CMS могут иметь разный перечень путей, который лучше скрыть от поисковых роботов. Наше маркетинговое агентство работает не только с готовыми “движками”, но и с самописными проектами, поэтому всегда внимательно прорабатывает директивы в системных файлах веб-проектов для оптимизации эффективности маркетинговых мероприятий, в частности, продвижения в поисковых системах.

Нет какого-то точно подходящего всем универсального рецепта того, что закрыть в robots.txt, но за годы работы мы собрали собственный чек-лист желательных к Disallow путей на сайте:

  • Технические страницы, вроде авторизационных, регистрационных, предназначенных для восстановления забытого пароля, корзину;

  • Папку с административной панелью, лучше полностью, включая вложенные подпапки и файлы;

  • Автоматически генерируемые страницы с подборками, результатами работы фильтров или внутреннего поиска по сайту, группировки по тэгам и т. п.

Комментариев нет
    Войти