Kama и campusboy12.7 лет назад208 EN

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Оглавление:

Оптимальный код robots.txt для WordPress
Версия 1 (не строгая)
Версия 2 (строгая)
Директивы (разбор кода)
ВАЖНО: Сортировка правил
Проверка robots.txt и документация
robots.txt в WordPress
robots_txt
do_robotstxt
Рекомендации
Ошибочные рекомендации
Спорные рекомендации
Нельзя закрывать /wp-admin/admin-ajax.php
Нельзя закрывать /wp-includes/
Не закрывайте фиды: */feed
Нестандартные Директивы
Clean-param
Crawl-delay (устарела)
Host (устарела)
Заключение

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Закрыть страницу от робота можно также через мета-тег robots или в HTTP-заголовке ответаX-Robots-Tag. Преимущество файла robots.txt в том, что робот при посещении сайта сначала загружает все правила из файла robots.txt и опираясь на них ходит по страницам сайта исключая из посещения страницы, URL которых не подходит под правила.

Таким образом, если мы закрыли страницу в robots.txt, робот просто пропустит её не сделав никаких запросов на сервер. А если мы закрыли страницу в заголовке X-Robots-Tag или мета-теге, роботу нужно сначала сделать запрос к серверу, получить ответ, посмотреть что находится в заголовке или метатеге и только потом принять решения индексировать страницу или нет.

Таким образом, файл robots.txt объясняет роботу какие страницы (URL) сайта нужно просто пропускать не делая никаких запросов. Это экономит время обхода роботом всех страниц сайта и экономит ресурсы сервера.

Рассмотрим на примере. Допустим, у нас есть сайт на котором всего 10 000 страниц (не 404 URL). Из них полезных страниц с уникальным контентом всего 3000, остальное это архивы по датам, авторам, страницы пагинации и другие страницы контент на которых дублируется (например фильтры с GET параметрами). Допустим, мы хотим закрыть от индексации эти 7000 неуникальных страниц:

если сделать это через robots.txt, то роботу для индексации всего сайта нужно будет посетить всего 3000 страниц остальное будет отсеяно сразу же на уровне URL.
если сделать это через мета-тег robots, то роботу для индексации всего сайта нужно будет посетить все 10 000 страниц сайта. Потому что нужно получить контент страницы, чтобы узнать что находится в мета-теге (в котором указано что страницу индексировать не нужно).

Несложно догадаться, что в этом случае первый вариант гораздо предпочтительнее потому что на обход сайта робот будет тратить гораздо меньше времени, а сервер будет генерировать гораздо меньше страниц.

Оптимальный код `robots.txt` для WordPress

Важно понимать, что ниже приведен универсальный пример кода для файла robots.txt. Для каждого конкретного сайта его нужно расширять или вносить корректировки. И лучше не трогайте ничего если не понимаете что делаете - обращайтесь к знающим людям.

Версия 1 (не строгая)

Эта версия, пожалуй, более предпочтительна по сравнению со второй, потому что тут нет опасности запретить индексацию каких либо файлов внутри ядра WordPress или папки wp-content.

User-agent: *                   # Создаем секцию правил для роботов. * значит для всех
								# роботов. Чтобы указать секцию правил для отдельного
								# робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin              # Стандартная папка на хостинге.
Disallow: /wp-admin/            # Закрываем админку.
Allow: /wp-admin/admin-ajax.php # Откроем аякс.
Disallow: /?                    # Все параметры запроса на главной.
Disallow: *?s=                  # Поиск.
Disallow: *&s=                  # Поиск.
Disallow: /search               # Поиск.
Disallow: /author/              # Архив автора.
Disallow: */embed$              # Все встраивания.
Disallow: */xmlrpc.php          # Файл WordPress API
Disallow: *utm*=                # Ссылки с utm-метками
Disallow: *openstat=            # Ссылки с метками openstat

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Версия 2 (строгая)

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP (Disallow: /wp-), а затем открываем, там где нужно.

Этот код я пожалуй не рекомендовал бы, потому что тут закрывается все от wp- и нужно будет описать все что разрешено. Так в будущем, когда WP введет что-то новое, это новое может стать недоступно для роботов. Так например получилось с картой сайта WP.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-                 # Все связанное с WP - это: /wp-content /wp-admin
							   # /wp-includes /wp-json wp-login.php wp-register.php.
Disallow: /wp/                 # Каталог куда установлено ядро WP (если ядро установлено
							   # в подкаталог). Если WP установлен стандартно, то
							   # правило можно удалить.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed$             # Все встраивания.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat
Allow:    */wp-*/*ajax*.php    # AJAX запросы: */admin-ajax.php */front-ajaxs.php
Allow:    */wp-sitemap         # карта сайта (главная и вложенные)
Allow:    */uploads            # открываем uploads
Allow:    */wp-*/*.js          # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.css         # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.png         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpeg        # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.gif         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.svg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.webp        # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.swf         # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.pdf         # файлы в плагинах, cache папке и т.д.
							   # Секция правил закончена

# Одна или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/wp-sitemap.xml
Sitemap: http://example.com/wp-sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

В правилах Allow: вы можете видеть дополнительные, казалось бы ненужные, знаки * - они нужны для увеличения приоритета правила. Зачем это нужно смотрите в сортировке правил.

Директивы (разбор кода)

User-agent:

Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

User-agent: * — указывает, что правила после этой строки будут работать для всех поисковых роботов.
User-agent: ИМЯ_РОБОТА — указывает конкретного робота, для которого будет работать блок правил. Например: User-agent: Yandex, User-agent: Googlebot.

Возможные роботы (боты) Яндекса:

Yandex робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Yandex — любой робот Яндекса.
YandexImages - Индексирует изображения для показа на Яндекс Картинках.
YandexMedia - Индексирует мультимедийные данные.
YandexDirect - Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы.
YandexDirectDyn - Скачивает файл фавиконки сайта для отображения в результатах поиска.
YandexBot - Основной индексирующий робот.
YandexAccessibilityBot - Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.
YandexAdNet - Робот Рекламной сети Яндекса.
YandexBlogs - Робот поиска по блогам, индексирующий комментарии постов.
YandexCalendar - Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
YandexDialogs - Отправляет запросы в навыки Алисы.
YaDirectFetcher - Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах.. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexForDomain - Робот почты для домена, используется при проверке прав на владение доменом.
YandexImageResizer - Робот мобильных сервисов.
YandexMobileBot - Определяет страницы с версткой, подходящей под мобильные устройства.
YandexMarket - Робот Яндекс Маркета.
YandexMetrika - Робот Яндекс Метрики. Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexMobileScreenShotBot - Делает снимок мобильной страницы.
YandexNews - Робот Яндекс Новостей.
YandexOntoDB - Робот объектного ответа.
YandexOntoDBAPI - Робот объектного ответа, скачивающий динамические данные.
YandexPagechecker - Обращается к странице при валидации микроразметки через форму Валидатор микроразметки.
YandexPartner - Скачивает информацию о контенте сайтов-партнеров Яндекса
YandexRCA - Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске.
YandexSearchShop - Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
YandexSitelinks - Проверяет доступность страниц, которые используются в качестве быстрых ссылок.
YandexSpravBot - Робот Яндекс Бизнеса.
YandexTracker - Робот Яндекс Трекера.
YandexTurbo - Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay.
YandexUserproxy - Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д.
YandexVertis - Робот поисковых вертикалей.
YandexVerticals - Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы.
YandexVideo - Индексирует видео для показа в поиске Яндекса по видео.
YandexVideoParser - Индексирует видео для показа в поиске Яндекса по видео.
YandexWebmaster - Робот Яндекс Вебмастера.

Полный список роботов Яндекса.

Возможные роботы (боты) Google:

Googlebot — основной индексирующий робот.
Googlebot-Image — индексирует изображения.
Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.
Полный список роботов Google.

Disallow:

Запрещает роботам "ходить" по ссылкам, в которых встречается указанная подстрока:

Disallow: /cgi-bin — закрывает каталог скриптов на сервере.
Disallow: *?s= — закрывает страницы поиска.
Disallow: */page/ — закрывает все виды пагинации.
Disallow: */embed$ — закрывает все URL заканчивающиеся на /embed.

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило:

Disallow: /news

Оно запретить роботам ходить по ссылками такого вида:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Если нужно закрыть любые вхождения /news, то пишем:

Disallow: */news

Закроет:

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

ВАЖНО о кириллице: роботы не понимают кириллицу, её им нужно предоставлять в кодированном виде. Например:

Disallow: /каталог                                    # неправильно.
Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 # правильно.

Allow:

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads. Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp-, а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads, ведь по ссылкам типа /wp-content/uploads/... у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать.
Allow: может быть расположена "до" или "после" Disallow:. При чтении правил роботы их сначала сортируют, затем читают, поэтому не имеет значения в каком месте находится Allow:, Disallow:. Подробнее о сортировке смотрите ниже.

Sitemap:

Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда нужно указать путь к каждому файлу отдельно.

ВАЖНО: Сортировка правил

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

User-agent: *
Allow: */uploads
Disallow: /wp-

будет прочитана как:

User-agent: *
Disallow: /wp-
Allow: */uploads

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg, правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Проверка `robots.txt` и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Яндекс: http://webmaster.yandex.ru/robots.xml.
Google: https://www.google.com/webmasters/tools/robots-testing-tool Нужна авторизация и наличия сайта в панели веб-мастера.
Яндекс документация robots.txt.
Google документация robots.txt

`robots.txt` в WordPress

ВАЖНО чтобы в корне вашего сайта НЕ было файла robots.txt! Если он там есть, то все описанное ниже просто не будет работать, потому что ваш сервер будет отдавать контент этого статического файла.

В WordPress запрос /robots.txt обрабатывается нестандартно. Для него «налету» создается контент файла robots.txt (через PHP).

Динамическое создание контента /robots.txt позволит удобно изменять его через админку, хуки или SEO плагины.

Изменить содержание robots.txt можно через:

Хук robots_txt.
Хук do_robotstxt.
Плагин https://wordpress.org/plugins/pc-robotstxt/ или ему подобные.

Рассмотрим оба хука: чем они отличаются и как их использовать.

Читайте также: Настраиваем файл robots.txt для WordPress.

robots_txt

По умолчанию WP 5.5 создает следующий контент для страницы /robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://example.com/wp-sitemap.xml

Смотрите do_robots() — как работает динамическое создание файла robots.txt.

Этот хук позволяет дополнить уже имеющиеся данные файла robots.txt. Код можно вставить в файл темы functions.php.

// Дополним базовый robots.txt
// -1 before wp-sitemap.xml
add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append( $output ){

	$str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

	$str = trim( $str );
	$str = preg_replace( '/^[\t ]+(?!#)/mU', '', $str );
	$output .= "$str\n";

	return $output;
}

В результате перейдем на страницу /robots.txt и видим:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

Sitemap: http://example.com/wp-sitemap.xml

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их.

do_robotstxt

Этот хук позволяет полностью заменить контент страницы /robots.txt.

add_action( 'do_robotstxt', 'wp_kama_robots_txt' );

function wp_kama_robots_txt(){

	$lines = [
		'User-agent: *',
		'Disallow: /wp-admin/',
		'Disallow: /wp-includes/',
		'',
	];

	echo implode( "\r\n", $lines );

	die; // обрываем работу PHP
}

Теперь, пройдя по ссылке http://site.com/robots.txt увидим:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Нестандартные Директивы

Clean-param

Google не понимаю эту директиву. Указывает роботу, что URL страницы содержит GET-параметры, которые не нужно учитывать при индексировании. Такими параметрами могут быть идентификаторы сессий, пользователей, метки UTM, т.е. все то что не влияет на содержимое страницы.

Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска. Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы, в которых параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница:

example.com/dir/bookname?ref=site_1
example.com/dir/bookname?ref=site_2
example.com/dir/bookname?ref=site_3

Если указать директиву следующим образом:

User-agent: Yandex
Clean-param: ref /dir/bookname

то робот Яндекса сведет все адреса страницы к одному:

example.com/dir/bookname

Пример очистки нескольких параметров сразу: ref и sort:

Clean-param: ref&sort /dir/bookname

Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. Если директив указано несколько, все они будут учтены роботом.

Crawl-delay (устарела)

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Crawl-delay: 1.5

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-*.gif

Google не понимает эту директиву. Таймаут его роботам можно указать в панели вебмастера.

Яндекс перестал учитывать Crawl-delay

Подробнее Яндекс перестал учитывать Crawl-delay:

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Для чего была нужна директива Crawl-delay

Когда робот сканирует сайт как сумасшедший и это создает излишнюю нагрузку на сервер. Робота можно попросить «поубавить обороты». Для этого можно использовать директиву Crawl-delay. Она указывает время в секундах, которое робот должен простаивать (ждать) для сканирования каждой следующей страницы сайта.

Host (устарела)

Google Директиву Host никогда не поддерживал, а Яндекс полностью отказывается от неё. Host можно смело удалять из robots.txt. Вместо Host нужно настраивать 301 редирект со всех зеркал сайта на главный сайт (главное зеркало).

Подробнее читайте на сайте Яндекса.

Поддерживаемые директвы от Google.

Заключение

Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу, ссылаясь на неправильный код robots.txt. Я больше склоняюсь ко второму.

—

На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

◂ Меню на jQuery

10+ приемов с админкой WordPress (сайт для клиента) ▸

Отличие бородавки от стержневой мозоли на стопе

отличие бородавки от стержневой мозоли на стопе
filllin.ru

208 комментариев

Полезные 28Вопросы 3 Все

BigDimoz31 procompsoft.ru

Привет! Что делать с одностраничником, первый варик норм будет или под них что-то особенное нужно прописывать? Да, насчёт карты сайта, получается она сути не нужна, ведь одна главная на выходе! Смысл её есть прописывать?

1

1.8 года назад #
- Kama9621
  
  Для одной страницы, ну только если закрыть всякие параметры запроса, хотя тут тоже можно просто canonical указать в HTML. Вообще это лучше у СЕОшников узнать и тут поделится
  
  0
  
  1.8 года назад #
  - BigDimoz31 procompsoft.ru
    
    Благодарю! Будет инфа, выложу)
    
    0
    
    1.8 года назад #
BigDimoz31 procompsoft.ru

Успехов!

0

1.8 года назад #
Юрий

А как заменять содержимое robots.txt и брать содержимое файла robots.php?

0

1.5 года назад #
- Kama9621
  
  robots.txt генерируется автоматически, если нет файла robots.txt в корне сайта. Т.е. нужно просто удалить файл robots.txt из корня и настроить то что он будет содержать через хуки указанные в этой статье.
  
  0
  
  1.5 года назад #
  - Юрий
    
    Дело в том, что в корне моего сайта нет robots.txt
    
    0
    
    1.5 года назад #
    - Kama9621
      
      Значит через хуки изменить содержимое. Возможно гдето уже есть такие хуки.
      
      0
      
      1.5 года назад #
Myakish14 ssa0@yandex.ru
Уважаемые коллеги, с удовольствием воспользовался материалами Kama для перезоздания robots.txt для своего сайта:
```
User-agent: Yandex
Clean-param: etext

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /author/
Disallow: */embed$
Disallow: */xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow:    */wp-*/*ajax*.php
Allow:    */wp-sitemap
Allow:    */uploads
Allow:    */wp-*/*.js
Allow:    */wp-*/*.css
Allow:    */wp-*/*.png
Allow:    */wp-*/*.jpg
Allow:    */wp-*/*.jpeg
Allow:    */wp-*/*.gif
Allow:    */wp-*/*.svg
Allow:    */wp-*/*.webp
Allow:    */wp-*/*.swf
Allow:    */wp-*/*.pdf

Sitemap: https://problesk.com/sitemap.xml
```
При тестировании в yandex-webmaster заметил, что яндексом игнорируется директивы под *. А вот, что ответила техподдержка на письмо:

В вашем файле robots.txt присутствует директива User-agent: Yandex, а игнорируемые нашим роботом директивы указаны для User-agent: . Если в файле robots.txt обнаружена строка User-agent: Yandex, то строка User-agent: не учитывается. Рекомендую вам добавить нужные директивы также и для нашего робота.

Вопрос: как мне вставить clean-param?
3

1.4 года назад #
Александр aleksryasnoy.ru

Скажите, пожалуйста. У меня есть страница 404, но при проверке, т.е. я прописываю неправильный адрес - 404 не открывается, появляется - "не удаётся соединиться с сайтом". В robots.txt нет запрета на индексирование, может это причина? Сайт на WP. Можно ли будет написать так - Disallow: /404.php ? И решит ли это проблему?

0

год назад #
- Dan Zakirov579 air-wp.com
  
  Если у вас нет запрета на индексирование в robots.txt, это не должно быть причиной, по которой ваша страница 404 не отображается.
  
  Для начала проверьте, есть ли вообще 404 страница в шаблоне.
  
  Также я бы рекомендовал проверить настройки вашего веб-сервера. Возможно, у вас есть конфигурация, которая перенаправляет запросы на страницу 404 на другую страницу, или же ваш сервер не настроен правильно для отображения страницы 404
  
  1
  
  год назад #
- Kama9621
  
  Код ошибки какой? Скрин можно?
  
  0
  
  10 месяцев назад #

Shu0_0

Странно, но по какой-то причине базовый robots.txt не дополняется с использованием этого хука.

Подскажте, пожалуйста, в чем может быть причина?

Спасибо

add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append($output)
{
  $str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

  $str = trim($str);
  $str = preg_replace('/^[\t ]+(?!#)/mU', '', $str);
  $output .= "$str\n";

  return $output;
}

10 месяцев назад #

Kama9621

Возможно у вас на сервере есть физический файл robots.txt в корне сайта. А это решение будет работать только для динамического файла, который не работает если есть физический файл.

0

10 месяцев назад #

Роман

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу, ссылаясь на неправильный код robots.txt. Я больше склоняюсь ко второму.

На самом деле это не слухи, у меня были такие страницы, когда вебмастер уведомлял, что они закрыты в robots, но поисковая система типа проигнорировала это правило и будет индексировать страницы.

1

7 месяцев назад #
Алексей
Здравствуйте, неведанная сила гугла не хочет сайт сканировать и индексировать. Служба поддержки в шоке, не знает что делать.
С одобрения админа, ссылки на проект:
- веб проект https://mudrogen.ru
- Карта сайта: https://mudrogen.ru/sitemap_index.xml
- Адрес на robots.txt https://mudrogen.ru/robots.txt
При добавлении карты сайты sc появляется ошибка, при проверки страниц сайта, появляется ошибка, якобы в robots.txt указанно правило запрещающее сканировать, индексировать страницы. Но это не так. Выполнили рекомендации гугла, нашли валидаторы, вот например:
- https://technicalseo.com/tools/robots-txt/
- https://en.ryte.com/free-tools/robots-txt/
Проверили, странице доступны для индексации.
Ни один валидатор не ругается, яндекс добавил, уже проиндексировал часть страниц, гугл не добавляет карту сайта даже.

В чем может быть причина, неужели технический сбой гугла?

Скриншоты:
1

2 месяца назад #
- Алесандр
  
  Возможно кому то полезно будет, вообщем никакая служба поддержки не помогла, сам разобрался.
  
  Надо было добавить сайт не как доменое имя, а просто с префиксом (там 2 способа добавления сайтов), сразу все заработало.
  
  Пусть этот коммент будет полезным для кого то, начала проекта ВОПРОС-ОТВЕТ наш уже здесь работает
  
  1
  
  2 месяца назад #

Настраиваем файл robots.txt для WordPress

Оптимальный код `robots.txt` для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка `robots.txt` и документация

`robots.txt` в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

Настраиваем файл robots.txt для WordPress

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка robots.txt и документация

robots.txt в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать /wp-admin/admin-ajax.php

Нельзя закрывать /wp-includes/

Не закрывайте фиды: */feed

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

До этого из: SEO

Последнее из: Настройка WP (кастомизация settings config)

Оптимальный код `robots.txt` для WordPress

Проверка `robots.txt` и документация

`robots.txt` в WordPress

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`