Kama и campusboy12.7 лет назад208 EN

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Оглавление:

Оптимальный код robots.txt для WordPress
Версия 1 (не строгая)
Версия 2 (строгая)
Директивы (разбор кода)
ВАЖНО: Сортировка правил
Проверка robots.txt и документация
robots.txt в WordPress
robots_txt
do_robotstxt
Рекомендации
Ошибочные рекомендации
Спорные рекомендации
Нельзя закрывать /wp-admin/admin-ajax.php
Нельзя закрывать /wp-includes/
Не закрывайте фиды: */feed
Нестандартные Директивы
Clean-param
Crawl-delay (устарела)
Host (устарела)
Заключение

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Закрыть страницу от робота можно также через мета-тег robots или в HTTP-заголовке ответаX-Robots-Tag. Преимущество файла robots.txt в том, что робот при посещении сайта сначала загружает все правила из файла robots.txt и опираясь на них ходит по страницам сайта исключая из посещения страницы, URL которых не подходит под правила.

Таким образом, если мы закрыли страницу в robots.txt, робот просто пропустит её не сделав никаких запросов на сервер. А если мы закрыли страницу в заголовке X-Robots-Tag или мета-теге, роботу нужно сначала сделать запрос к серверу, получить ответ, посмотреть что находится в заголовке или метатеге и только потом принять решения индексировать страницу или нет.

Таким образом, файл robots.txt объясняет роботу какие страницы (URL) сайта нужно просто пропускать не делая никаких запросов. Это экономит время обхода роботом всех страниц сайта и экономит ресурсы сервера.

Рассмотрим на примере. Допустим, у нас есть сайт на котором всего 10 000 страниц (не 404 URL). Из них полезных страниц с уникальным контентом всего 3000, остальное это архивы по датам, авторам, страницы пагинации и другие страницы контент на которых дублируется (например фильтры с GET параметрами). Допустим, мы хотим закрыть от индексации эти 7000 неуникальных страниц:

если сделать это через robots.txt, то роботу для индексации всего сайта нужно будет посетить всего 3000 страниц остальное будет отсеяно сразу же на уровне URL.
если сделать это через мета-тег robots, то роботу для индексации всего сайта нужно будет посетить все 10 000 страниц сайта. Потому что нужно получить контент страницы, чтобы узнать что находится в мета-теге (в котором указано что страницу индексировать не нужно).

Несложно догадаться, что в этом случае первый вариант гораздо предпочтительнее потому что на обход сайта робот будет тратить гораздо меньше времени, а сервер будет генерировать гораздо меньше страниц.

Оптимальный код `robots.txt` для WordPress

Важно понимать, что ниже приведен универсальный пример кода для файла robots.txt. Для каждого конкретного сайта его нужно расширять или вносить корректировки. И лучше не трогайте ничего если не понимаете что делаете - обращайтесь к знающим людям.

Версия 1 (не строгая)

Эта версия, пожалуй, более предпочтительна по сравнению со второй, потому что тут нет опасности запретить индексацию каких либо файлов внутри ядра WordPress или папки wp-content.

User-agent: *                   # Создаем секцию правил для роботов. * значит для всех
								# роботов. Чтобы указать секцию правил для отдельного
								# робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin              # Стандартная папка на хостинге.
Disallow: /wp-admin/            # Закрываем админку.
Allow: /wp-admin/admin-ajax.php # Откроем аякс.
Disallow: /?                    # Все параметры запроса на главной.
Disallow: *?s=                  # Поиск.
Disallow: *&s=                  # Поиск.
Disallow: /search               # Поиск.
Disallow: /author/              # Архив автора.
Disallow: */embed$              # Все встраивания.
Disallow: */xmlrpc.php          # Файл WordPress API
Disallow: *utm*=                # Ссылки с utm-метками
Disallow: *openstat=            # Ссылки с метками openstat

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Версия 2 (строгая)

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP (Disallow: /wp-), а затем открываем, там где нужно.

Этот код я пожалуй не рекомендовал бы, потому что тут закрывается все от wp- и нужно будет описать все что разрешено. Так в будущем, когда WP введет что-то новое, это новое может стать недоступно для роботов. Так например получилось с картой сайта WP.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-                 # Все связанное с WP - это: /wp-content /wp-admin
							   # /wp-includes /wp-json wp-login.php wp-register.php.
Disallow: /wp/                 # Каталог куда установлено ядро WP (если ядро установлено
							   # в подкаталог). Если WP установлен стандартно, то
							   # правило можно удалить.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed$             # Все встраивания.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat
Allow:    */wp-*/*ajax*.php    # AJAX запросы: */admin-ajax.php */front-ajaxs.php
Allow:    */wp-sitemap         # карта сайта (главная и вложенные)
Allow:    */uploads            # открываем uploads
Allow:    */wp-*/*.js          # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.css         # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.png         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpeg        # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.gif         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.svg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.webp        # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.swf         # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.pdf         # файлы в плагинах, cache папке и т.д.
							   # Секция правил закончена

# Одна или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/wp-sitemap.xml
Sitemap: http://example.com/wp-sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

В правилах Allow: вы можете видеть дополнительные, казалось бы ненужные, знаки * - они нужны для увеличения приоритета правила. Зачем это нужно смотрите в сортировке правил.

Директивы (разбор кода)

User-agent:

Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

User-agent: * — указывает, что правила после этой строки будут работать для всех поисковых роботов.
User-agent: ИМЯ_РОБОТА — указывает конкретного робота, для которого будет работать блок правил. Например: User-agent: Yandex, User-agent: Googlebot.

Возможные роботы (боты) Яндекса:

Yandex робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Yandex — любой робот Яндекса.
YandexImages - Индексирует изображения для показа на Яндекс Картинках.
YandexMedia - Индексирует мультимедийные данные.
YandexDirect - Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы.
YandexDirectDyn - Скачивает файл фавиконки сайта для отображения в результатах поиска.
YandexBot - Основной индексирующий робот.
YandexAccessibilityBot - Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.
YandexAdNet - Робот Рекламной сети Яндекса.
YandexBlogs - Робот поиска по блогам, индексирующий комментарии постов.
YandexCalendar - Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
YandexDialogs - Отправляет запросы в навыки Алисы.
YaDirectFetcher - Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах.. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexForDomain - Робот почты для домена, используется при проверке прав на владение доменом.
YandexImageResizer - Робот мобильных сервисов.
YandexMobileBot - Определяет страницы с версткой, подходящей под мобильные устройства.
YandexMarket - Робот Яндекс Маркета.
YandexMetrika - Робот Яндекс Метрики. Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexMobileScreenShotBot - Делает снимок мобильной страницы.
YandexNews - Робот Яндекс Новостей.
YandexOntoDB - Робот объектного ответа.
YandexOntoDBAPI - Робот объектного ответа, скачивающий динамические данные.
YandexPagechecker - Обращается к странице при валидации микроразметки через форму Валидатор микроразметки.
YandexPartner - Скачивает информацию о контенте сайтов-партнеров Яндекса
YandexRCA - Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске.
YandexSearchShop - Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
YandexSitelinks - Проверяет доступность страниц, которые используются в качестве быстрых ссылок.
YandexSpravBot - Робот Яндекс Бизнеса.
YandexTracker - Робот Яндекс Трекера.
YandexTurbo - Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay.
YandexUserproxy - Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д.
YandexVertis - Робот поисковых вертикалей.
YandexVerticals - Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы.
YandexVideo - Индексирует видео для показа в поиске Яндекса по видео.
YandexVideoParser - Индексирует видео для показа в поиске Яндекса по видео.
YandexWebmaster - Робот Яндекс Вебмастера.

Полный список роботов Яндекса.

Возможные роботы (боты) Google:

Googlebot — основной индексирующий робот.
Googlebot-Image — индексирует изображения.
Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.
Полный список роботов Google.

Disallow:

Запрещает роботам "ходить" по ссылкам, в которых встречается указанная подстрока:

Disallow: /cgi-bin — закрывает каталог скриптов на сервере.
Disallow: *?s= — закрывает страницы поиска.
Disallow: */page/ — закрывает все виды пагинации.
Disallow: */embed$ — закрывает все URL заканчивающиеся на /embed.

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило:

Disallow: /news

Оно запретить роботам ходить по ссылками такого вида:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Если нужно закрыть любые вхождения /news, то пишем:

Disallow: */news

Закроет:

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

ВАЖНО о кириллице: роботы не понимают кириллицу, её им нужно предоставлять в кодированном виде. Например:

Disallow: /каталог                                    # неправильно.
Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 # правильно.

Allow:

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads. Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp-, а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads, ведь по ссылкам типа /wp-content/uploads/... у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать.
Allow: может быть расположена "до" или "после" Disallow:. При чтении правил роботы их сначала сортируют, затем читают, поэтому не имеет значения в каком месте находится Allow:, Disallow:. Подробнее о сортировке смотрите ниже.

Sitemap:

Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда нужно указать путь к каждому файлу отдельно.

ВАЖНО: Сортировка правил

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

User-agent: *
Allow: */uploads
Disallow: /wp-

будет прочитана как:

User-agent: *
Disallow: /wp-
Allow: */uploads

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg, правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Проверка `robots.txt` и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Яндекс: http://webmaster.yandex.ru/robots.xml.
Google: https://www.google.com/webmasters/tools/robots-testing-tool Нужна авторизация и наличия сайта в панели веб-мастера.
Яндекс документация robots.txt.
Google документация robots.txt

`robots.txt` в WordPress

ВАЖНО чтобы в корне вашего сайта НЕ было файла robots.txt! Если он там есть, то все описанное ниже просто не будет работать, потому что ваш сервер будет отдавать контент этого статического файла.

В WordPress запрос /robots.txt обрабатывается нестандартно. Для него «налету» создается контент файла robots.txt (через PHP).

Динамическое создание контента /robots.txt позволит удобно изменять его через админку, хуки или SEO плагины.

Изменить содержание robots.txt можно через:

Хук robots_txt.
Хук do_robotstxt.
Плагин https://wordpress.org/plugins/pc-robotstxt/ или ему подобные.

Рассмотрим оба хука: чем они отличаются и как их использовать.

Читайте также: Настраиваем файл robots.txt для WordPress.

robots_txt

По умолчанию WP 5.5 создает следующий контент для страницы /robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://example.com/wp-sitemap.xml

Смотрите do_robots() — как работает динамическое создание файла robots.txt.

Этот хук позволяет дополнить уже имеющиеся данные файла robots.txt. Код можно вставить в файл темы functions.php.

// Дополним базовый robots.txt
// -1 before wp-sitemap.xml
add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append( $output ){

	$str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

	$str = trim( $str );
	$str = preg_replace( '/^[\t ]+(?!#)/mU', '', $str );
	$output .= "$str\n";

	return $output;
}

В результате перейдем на страницу /robots.txt и видим:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

Sitemap: http://example.com/wp-sitemap.xml

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их.

do_robotstxt

Этот хук позволяет полностью заменить контент страницы /robots.txt.

add_action( 'do_robotstxt', 'wp_kama_robots_txt' );

function wp_kama_robots_txt(){

	$lines = [
		'User-agent: *',
		'Disallow: /wp-admin/',
		'Disallow: /wp-includes/',
		'',
	];

	echo implode( "\r\n", $lines );

	die; // обрываем работу PHP
}

Теперь, пройдя по ссылке http://site.com/robots.txt увидим:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Нестандартные Директивы

Clean-param

Google не понимаю эту директиву. Указывает роботу, что URL страницы содержит GET-параметры, которые не нужно учитывать при индексировании. Такими параметрами могут быть идентификаторы сессий, пользователей, метки UTM, т.е. все то что не влияет на содержимое страницы.

Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска. Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы, в которых параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница:

example.com/dir/bookname?ref=site_1
example.com/dir/bookname?ref=site_2
example.com/dir/bookname?ref=site_3

Если указать директиву следующим образом:

User-agent: Yandex
Clean-param: ref /dir/bookname

то робот Яндекса сведет все адреса страницы к одному:

example.com/dir/bookname

Пример очистки нескольких параметров сразу: ref и sort:

Clean-param: ref&sort /dir/bookname

Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. Если директив указано несколько, все они будут учтены роботом.

Crawl-delay (устарела)

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Crawl-delay: 1.5

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-*.gif

Google не понимает эту директиву. Таймаут его роботам можно указать в панели вебмастера.

Яндекс перестал учитывать Crawl-delay

Подробнее Яндекс перестал учитывать Crawl-delay:

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Для чего была нужна директива Crawl-delay

Когда робот сканирует сайт как сумасшедший и это создает излишнюю нагрузку на сервер. Робота можно попросить «поубавить обороты». Для этого можно использовать директиву Crawl-delay. Она указывает время в секундах, которое робот должен простаивать (ждать) для сканирования каждой следующей страницы сайта.

Host (устарела)

Google Директиву Host никогда не поддерживал, а Яндекс полностью отказывается от неё. Host можно смело удалять из robots.txt. Вместо Host нужно настраивать 301 редирект со всех зеркал сайта на главный сайт (главное зеркало).

Подробнее читайте на сайте Яндекса.

Поддерживаемые директвы от Google.

Заключение

Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу, ссылаясь на неправильный код robots.txt. Я больше склоняюсь ко второму.

—

На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

◂ Меню на jQuery

10+ приемов с админкой WordPress (сайт для клиента) ▸

208 комментариев

Полезные 28Вопросы 3 Все

Михаил shampoo.su
Господа, а посмотрите, на моем сайте верно собрал роботс?
```
User-agent: * 
Disallow: /cgi-bin
Disallow: /? 
Disallow: /wp-  
Disallow: /wp/ 

Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: /tag/
Disallow: */trackback

Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml 

Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Allow: */uploads

User-agent: GoogleBot
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /tag/
Dissallow */page/ 
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex 
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: /tag/
Disallow: */trackback
Disallow: */feed
Disallow: */page/
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php

User-agent: Twitterbot
Disallow: *
Allow: /images
Allow: /archives

Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Clean-Param: openstat
Sitemap: https://shampoo.su/sitemap.xml
Host: https://shampoo.su
```
0

6 лет назад #
- svetoslavluchezarniy6
  
  Необходимо убрать пустые строки в блоках!
  
  Disallow: /author/ # страницу автора, как и любые архивы, лучше закрыть через метатег robots, т.к. если со сторонних сайтов будут туда ссылки, и они проиндексируются, то в поисковой выдаче увидите ссылку на страницу автора, а вместо описания будет объявление, что в robots.txt данная страница заблокирована... это я вычитал в инструкциях Google. Конечно, это может быть и маловероятно, но я, например, перестраховался...
  Disallow: /users/ # таже история...
  
  Disallow: */wlwmanifest.xml # закрыать не имеет смысла, т.к. имеется команда Disallow: /wp-
  
  Disallow: /xmlrpc.php # так некоторые делают, но подобные файлы, например в корне WP, лучше закрыть 404, а в некоторых уже по умолчанию задан метатег robots с атрибутами noindex, nofollow
  
  Disallow: /wp/ # если есть такая дирректория на сайте, то может и правильно... важны детали...
  Disallow: *utm= # если есть такие метки на сайте, то может и правильно... важны детали...
  Disallow: *openstat= # таже история...
  
  Следующие комманды, нужно для всех поисковых роботов применять, если конечно это сделано не специально! Т.е. один бот - один блок без пустых строк!
  Allow: /*/*.js
  Allow: /*/*.css
  Allow: /wp-*.png
  Allow: /wp-*.jpg
  Allow: /wp-*.jpeg
  Allow: /wp-*.gif
  Allow: /wp-admin/admin-ajax.php
  
  Да в принципе смысла не вижу в данном robots.txt прописовать комманды отдельно для Google и Яндекс. Надо прописать в блоке "User-agent: *", так как команды идентичны, исключая .js.css.png... которые ошибочно оторваны от блоков!
  
  Про "User-agent: Twitterbot" сказать ничего не могу, но мне кажеться, что общие правила ему будут в пору... нужно читать об этом уже в рекомендациях Twitter.
  
  Также рекомендовано для удобочитаемости: "Sitemap: https...sitemap.xml" писать после пустой строки, и после команды оставлять пустую строку; "Host: https...shampoo.su" писать через пустую строку; "Clean-Param: openstat" вероятно тоже...
  
  1
  
  6 лет назад #
  - newbie35 yumchief.com
    
    Необходимо убрать пустые строки в блоках!
    
    Пустые строки ни на что не влияют, если нравится - можно использовать.
    
    Disallow: /author/ # страницу автора, как и любые архивы, лучше закрыть через метатег robots
    
    Не лучше. Через мета-тег ты закроешь только страницу example.com/author/, а страницы, находящиеся в ней будут проиндексированы. Про то, что на выдаче в сниппете будет "заблокирована в robots.txt" вообще бред.
    
    Disallow: */wlwmanifest.xml # закрыать не имеет смысла, т.к. имеется команда Disallow: /wp-
    
    С чего ты взял, что этот xml файл лежит в одной из папок с названием wp-* ?
    
    Disallow: /wp/ # если есть такая дирректория на сайте, то может и правильно...
    
    А если нету, то неправильно? Пруфы, пожалуйста
    
    Disallow: utm= # если есть такие метки на сайте, то может и правильно... важны детали...
    Disallow: openstat= # таже история...
    
    utm и openstat метки нужно закрывать в роботс, если они имеют место быть, но если их нет, то ошибкой эти правила не являются
    
    По поводу файла роботс:
    
    Disallow: /tag/ - зачем закрыл теговые страницы?
    Dissallow */page/ - что это и зачем?
    Правила для твиттер бота можно спокойно удалять
    host не нужен, можно удалять
    
    Однозначно нельзя сказать, правильно или неправильно настроен файл, т.к. нужно смотреть твой сайт, а никому, кроме тебя, это нафиг не нужно.
    
    1
    
    6 лет назад #
    - svetoslavluchezarniy6
      
      Необходимо убрать пустые строки в блоках!
      
      Пустые строки ни на что не влияют, если нравится - можно использовать.
      
      может и так. Я уже запарился искать ответы. Поэтому сам подобные пустые строки не использую, так сказать на всякий случай.
      
      Disallow: /author/ # страницу автора, как и любые архивы, лучше закрыть через метатег robots
      
      Не лучше. Через мета-тег ты закроешь только страницу example.com/author/, а страницы, находящиеся в ней будут проиндексированы.
      
      Да, не закроешь! Если архивы на сайте сделаны криво! Конечно нужно не только для страниц любых архивов ставить noindex, nofollow, но и для вложенных страниц. Тем более в robots.txt есть команда Disallow: */page/, которая закрывает от посещения роботом любых страниц пагинации, в том числе и архивов. Но я тоже не использую Disallow: */page/, т.к. на любых страницах пагинации использую noindex, nofollow. Да, конечно нагрузка на сервер будет больше, чем в случае с robots.txt. Но опасаюсь кривого сниппета в поисковой выдачи!
      
      Про то, что на выдаче в сниппете будет "заблокирована в robots.txt" вообще бред.
      
      Может и так , утверждать не буду, нужно разбираться, потому что такая инфа есть, и она есть в инструкциях Google, смотреть в конце (https://support.google.com/webmasters/answer/6062608?hl=ru). А так, тема интересная, если Вас не затруднит, киньте ссылку, где сказано обратное.
      
      Disallow: */wlwmanifest.xml # закрыать не имеет смысла, т.к. имеется команда
      Disallow: /wp-
      
      С чего ты взял, что этот xml файл лежит в одной из папок с названием wp-* ?
      
      С того, что он лежит там, например в WP4.9.5 он расположен */wp-includes/wlwmanifest.xml. Я не утверждаю, что он может быть только по этому пути, но по умолчанию в WP он там .
      
      Disallow: /wp/ # если есть такая дирректория на сайте, то может и правильно...
      
      А если нету, то неправильно? Пруфы, пожалуйста
      
      Думаю, что это странно . Почему бы тогда кучу подобных правил не установить? Например 100! Если нет таких каталогов...
      
      utm и openstat метки нужно закрывать в роботс, если они имеют место быть, но если их нет, то ошибкой эти правила не являются
      
      Спасибо за коммент. Буду дальше копать .
      Вот ещё по этому поводу: https://wp-kama.ru/question/nastroyki-fayla-robotstxt
      
      1
      
      6 лет назад #
    - svetoslavluchezarniy6
      
      На счёт меток utm и openstat, для построения статистики конверсии с помощью сервисов метрик. Обнаружил интересную вещь: Disallow: *utm= вроде как с ошибкой, т.к. ссылки меток utm - *utm_source*, *utm_medium*, и т.п. Т.е. правильно задавать Disallow: *utm. Что, на счёт этого думаете? Вот инфа: https://www.owox.ru/blog/articles/how-to-use-utm-tags/#download
      И ещё нашёл одну метку from=, она редко применяется. Вот инфа: http://unitad.ru/poleznoe/metki-utm-openstat-dlya-metriki-i-analytics/ Может тоже закрыть? Disallow: *from=
      
      1
      
      6 лет назад #
svetoslavluchezarniy6

Какой смысл задавать Allow: */uploads, если в любом случае медиаконтент .png, .jpg, и т.п. открывается подобно Allow: /wp-*.jpg?

0

6 лет назад #
- Kama9619
  
  Потому что папку uploads можно перенести в любую другую директорию, ровно также как можно переименовать папку wp-content, где обычно лежит uploads.
  
  Я wp-content меняю постоянно, так сразу отваливают криво написанные плагины... На этом сайте просто лень переделывать...
  
  0
  
  6 лет назад #
Тарас

Есть урл такого вида:

example.com/wp-content/uploads/2017/06/hodataystvo-o-naznachenii-geneticheskoj-ekspertizy.doc

Как мне закрыть все файлы, которые заканчиваються на .doc с учетом 1 варианта файла роботс?

2

5.8 лет назад #
- Kama9619
  Например так:
```
Disallow: */uploads/*.doc
```
  0
  
  5.8 лет назад #
  - Тарас
    
    Спасибо. Как оказалось, гуглу всеравно на это правило, я решил попробовать noindex, follow
    
    0
    
    5.7 лет назад #
seoonly.ru seoonly.ru

Спасибо!!!

0

5.7 лет назад #
DaylaGuide daylaguide.es

Спасибо за простой роботс, вставлю на свой новый сайт

0

5.7 лет назад #

Настраиваем файл robots.txt для WordPress

Оптимальный код `robots.txt` для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка `robots.txt` и документация

`robots.txt` в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

Настраиваем файл robots.txt для WordPress

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка robots.txt и документация

robots.txt в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать /wp-admin/admin-ajax.php

Нельзя закрывать /wp-includes/

Не закрывайте фиды: */feed

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

До этого из: SEO

Последнее из: Настройка WP (кастомизация settings config)

Оптимальный код `robots.txt` для WordPress

Проверка `robots.txt` и документация

`robots.txt` в WordPress

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`