Kama и campusboy4 месяца назад208 EN

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Оглавление:

Оптимальный код robots.txt для WordPress
Версия 1 (не строгая)
Версия 2 (строгая)
Директивы (разбор кода)
ВАЖНО: Сортировка правил
Проверка robots.txt и документация
robots.txt в WordPress
robots_txt
do_robotstxt
Рекомендации
Ошибочные рекомендации
Спорные рекомендации
Нельзя закрывать /wp-admin/admin-ajax.php
Нельзя закрывать /wp-includes/
Не закрывайте фиды: */feed
Нестандартные Директивы
Clean-param
Crawl-delay (устарела)
Host (устарела)
Заключение

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Закрыть страницу от робота можно также через мета-тег robots или в HTTP-заголовке ответаX-Robots-Tag. Преимущество файла robots.txt в том, что робот при посещении сайта сначала загружает все правила из файла robots.txt и опираясь на них ходит по страницам сайта исключая из посещения страницы, URL которых не подходит под правила.

Таким образом, если мы закрыли страницу в robots.txt, робот просто пропустит её не сделав никаких запросов на сервер. А если мы закрыли страницу в заголовке X-Robots-Tag или мета-теге, роботу нужно сначала сделать запрос к серверу, получить ответ, посмотреть что находится в заголовке или метатеге и только потом принять решения индексировать страницу или нет.

Таким образом, файл robots.txt объясняет роботу какие страницы (URL) сайта нужно просто пропускать не делая никаких запросов. Это экономит время обхода роботом всех страниц сайта и экономит ресурсы сервера.

Рассмотрим на примере. Допустим, у нас есть сайт на котором всего 10 000 страниц (не 404 URL). Из них полезных страниц с уникальным контентом всего 3000, остальное это архивы по датам, авторам, страницы пагинации и другие страницы контент на которых дублируется (например фильтры с GET параметрами). Допустим, мы хотим закрыть от индексации эти 7000 неуникальных страниц:

если сделать это через robots.txt, то роботу для индексации всего сайта нужно будет посетить всего 3000 страниц остальное будет отсеяно сразу же на уровне URL.
если сделать это через мета-тег robots, то роботу для индексации всего сайта нужно будет посетить все 10 000 страниц сайта. Потому что нужно получить контент страницы, чтобы узнать что находится в мета-теге (в котором указано что страницу индексировать не нужно).

Несложно догадаться, что в этом случае первый вариант гораздо предпочтительнее потому что на обход сайта робот будет тратить гораздо меньше времени, а сервер будет генерировать гораздо меньше страниц.

Оптимальный код `robots.txt` для WordPress

Важно понимать, что ниже приведен универсальный пример кода для файла robots.txt. Для каждого конкретного сайта его нужно расширять или вносить корректировки. И лучше не трогайте ничего если не понимаете что делаете - обращайтесь к знающим людям.

Версия 1 (не строгая)

Эта версия, пожалуй, более предпочтительна по сравнению со второй, потому что тут нет опасности запретить индексацию каких либо файлов внутри ядра WordPress или папки wp-content.

User-agent: *                   # Создаем секцию правил для роботов. * значит для всех
								# роботов. Чтобы указать секцию правил для отдельного
								# робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin              # Стандартная папка на хостинге.
Disallow: /wp-admin/            # Закрываем админку.
Allow: /wp-admin/admin-ajax.php # Откроем аякс.
Disallow: /?                    # Все параметры запроса на главной.
Disallow: *?s=                  # Поиск.
Disallow: *&s=                  # Поиск.
Disallow: /search               # Поиск.
Disallow: /author/              # Архив автора.
Disallow: */embed$              # Все встраивания.
Disallow: */xmlrpc.php          # Файл WordPress API
Disallow: *utm*=                # Ссылки с utm-метками
Disallow: *openstat=            # Ссылки с метками openstat

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Версия 2 (строгая)

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP (Disallow: /wp-), а затем открываем, там где нужно.

Этот код я пожалуй не рекомендовал бы, потому что тут закрывается все от wp- и нужно будет описать все что разрешено. Так в будущем, когда WP введет что-то новое, это новое может стать недоступно для роботов. Так например получилось с картой сайта WP.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-                 # Все связанное с WP - это: /wp-content /wp-admin
							   # /wp-includes /wp-json wp-login.php wp-register.php.
Disallow: /wp/                 # Каталог куда установлено ядро WP (если ядро установлено
							   # в подкаталог). Если WP установлен стандартно, то
							   # правило можно удалить.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed$             # Все встраивания.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat
Allow:    */wp-*/*ajax*.php    # AJAX запросы: */admin-ajax.php */front-ajaxs.php
Allow:    */wp-sitemap         # карта сайта (главная и вложенные)
Allow:    */uploads            # открываем uploads
Allow:    */wp-*/*.js          # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.css         # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.png         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpeg        # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.gif         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.svg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.webp        # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.swf         # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.pdf         # файлы в плагинах, cache папке и т.д.
							   # Секция правил закончена

# Одна или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/wp-sitemap.xml
Sitemap: http://example.com/wp-sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

В правилах Allow: вы можете видеть дополнительные, казалось бы ненужные, знаки * - они нужны для увеличения приоритета правила. Зачем это нужно смотрите в сортировке правил.

Директивы (разбор кода)

User-agent:

Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

User-agent: * — указывает, что правила после этой строки будут работать для всех поисковых роботов.
User-agent: ИМЯ_РОБОТА — указывает конкретного робота, для которого будет работать блок правил. Например: User-agent: Yandex, User-agent: Googlebot.

Возможные роботы (боты) Яндекса:

Yandex робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Yandex — любой робот Яндекса.
YandexImages - Индексирует изображения для показа на Яндекс Картинках.
YandexMedia - Индексирует мультимедийные данные.
YandexDirect - Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы.
YandexDirectDyn - Скачивает файл фавиконки сайта для отображения в результатах поиска.
YandexBot - Основной индексирующий робот.
YandexAccessibilityBot - Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.
YandexAdNet - Робот Рекламной сети Яндекса.
YandexBlogs - Робот поиска по блогам, индексирующий комментарии постов.
YandexCalendar - Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
YandexDialogs - Отправляет запросы в навыки Алисы.
YaDirectFetcher - Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах.. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexForDomain - Робот почты для домена, используется при проверке прав на владение доменом.
YandexImageResizer - Робот мобильных сервисов.
YandexMobileBot - Определяет страницы с версткой, подходящей под мобильные устройства.
YandexMarket - Робот Яндекс Маркета.
YandexMetrika - Робот Яндекс Метрики. Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexMobileScreenShotBot - Делает снимок мобильной страницы.
YandexNews - Робот Яндекс Новостей.
YandexOntoDB - Робот объектного ответа.
YandexOntoDBAPI - Робот объектного ответа, скачивающий динамические данные.
YandexPagechecker - Обращается к странице при валидации микроразметки через форму Валидатор микроразметки.
YandexPartner - Скачивает информацию о контенте сайтов-партнеров Яндекса
YandexRCA - Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске.
YandexSearchShop - Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
YandexSitelinks - Проверяет доступность страниц, которые используются в качестве быстрых ссылок.
YandexSpravBot - Робот Яндекс Бизнеса.
YandexTracker - Робот Яндекс Трекера.
YandexTurbo - Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay.
YandexUserproxy - Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д.
YandexVertis - Робот поисковых вертикалей.
YandexVerticals - Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы.
YandexVideo - Индексирует видео для показа в поиске Яндекса по видео.
YandexVideoParser - Индексирует видео для показа в поиске Яндекса по видео.
YandexWebmaster - Робот Яндекс Вебмастера.

Полный список роботов Яндекса.

Возможные роботы (боты) Google:

Googlebot — основной индексирующий робот.
Googlebot-Image — индексирует изображения.
Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.
Полный список роботов Google.

Disallow:

Запрещает роботам "ходить" по ссылкам, в которых встречается указанная подстрока:

Disallow: /cgi-bin — закрывает каталог скриптов на сервере.
Disallow: *?s= — закрывает страницы поиска.
Disallow: */page/ — закрывает все виды пагинации.
Disallow: */embed$ — закрывает все URL заканчивающиеся на /embed.

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило:

Disallow: /news

Оно запретить роботам ходить по ссылками такого вида:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Если нужно закрыть любые вхождения /news, то пишем:

Disallow: */news

Закроет:

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

ВАЖНО о кириллице: роботы не понимают кириллицу, её им нужно предоставлять в кодированном виде. Например:

Disallow: /каталог                                    # неправильно.
Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 # правильно.

Allow:

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads. Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp-, а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads, ведь по ссылкам типа /wp-content/uploads/... у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать.
Allow: может быть расположена "до" или "после" Disallow:. При чтении правил роботы их сначала сортируют, затем читают, поэтому не имеет значения в каком месте находится Allow:, Disallow:. Подробнее о сортировке смотрите ниже.

Sitemap:

Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда нужно указать путь к каждому файлу отдельно.

ВАЖНО: Сортировка правил

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

User-agent: *
Allow: */uploads
Disallow: /wp-

будет прочитана как:

User-agent: *
Disallow: /wp-
Allow: */uploads

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg, правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Проверка `robots.txt` и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Яндекс: http://webmaster.yandex.ru/robots.xml.
Google: https://www.google.com/webmasters/tools/robots-testing-tool Нужна авторизация и наличия сайта в панели веб-мастера.
Яндекс документация robots.txt.
Google документация robots.txt

`robots.txt` в WordPress

ВАЖНО чтобы в корне вашего сайта НЕ было файла robots.txt! Если он там есть, то все описанное ниже просто не будет работать, потому что ваш сервер будет отдавать контент этого статического файла.

В WordPress запрос /robots.txt обрабатывается нестандартно. Для него «налету» создается контент файла robots.txt (через PHP).

Динамическое создание контента /robots.txt позволит удобно изменять его через админку, хуки или SEO плагины.

Изменить содержание robots.txt можно через:

Хук robots_txt.
Хук do_robotstxt.
Плагин https://wordpress.org/plugins/pc-robotstxt/ или ему подобные.

Рассмотрим оба хука: чем они отличаются и как их использовать.

Читайте также: Настраиваем файл robots.txt для WordPress.

robots_txt

По умолчанию WP 5.5 создает следующий контент для страницы /robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://example.com/wp-sitemap.xml

Смотрите do_robots() — как работает динамическое создание файла robots.txt.

Этот хук позволяет дополнить уже имеющиеся данные файла robots.txt. Код можно вставить в файл темы functions.php.

// Дополним базовый robots.txt
// -1 before wp-sitemap.xml
add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append( $output ){

	$str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

	$str = trim( $str );
	$str = preg_replace( '/^[\t ]+(?!#)/mU', '', $str );
	$output .= "$str\n";

	return $output;
}

В результате перейдем на страницу /robots.txt и видим:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

Sitemap: http://example.com/wp-sitemap.xml

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их.

do_robotstxt

Этот хук позволяет полностью заменить контент страницы /robots.txt.

add_action( 'do_robotstxt', 'wp_kama_robots_txt' );

function wp_kama_robots_txt(){

	$lines = [
		'User-agent: *',
		'Disallow: /wp-admin/',
		'Disallow: /wp-includes/',
		'',
	];

	echo implode( "\r\n", $lines );

	die; // обрываем работу PHP
}

Теперь, пройдя по ссылке http://site.com/robots.txt увидим:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Нестандартные Директивы

Clean-param

Google не понимаю эту директиву. Указывает роботу, что URL страницы содержит GET-параметры, которые не нужно учитывать при индексировании. Такими параметрами могут быть идентификаторы сессий, пользователей, метки UTM, т.е. все то что не влияет на содержимое страницы.

Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска. Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы, в которых параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница:

example.com/dir/bookname?ref=site_1
example.com/dir/bookname?ref=site_2
example.com/dir/bookname?ref=site_3

Если указать директиву следующим образом:

User-agent: Yandex
Clean-param: ref /dir/bookname

то робот Яндекса сведет все адреса страницы к одному:

example.com/dir/bookname

Пример очистки нескольких параметров сразу: ref и sort:

Clean-param: ref&sort /dir/bookname

Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. Если директив указано несколько, все они будут учтены роботом.

Crawl-delay (устарела)

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Crawl-delay: 1.5

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-*.gif

Google не понимает эту директиву. Таймаут его роботам можно указать в панели вебмастера.

Яндекс перестал учитывать Crawl-delay

Подробнее Яндекс перестал учитывать Crawl-delay:

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Для чего была нужна директива Crawl-delay

Когда робот сканирует сайт как сумасшедший и это создает излишнюю нагрузку на сервер. Робота можно попросить «поубавить обороты». Для этого можно использовать директиву Crawl-delay. Она указывает время в секундах, которое робот должен простаивать (ждать) для сканирования каждой следующей страницы сайта.

Host (устарела)

Google Директиву Host никогда не поддерживал, а Яндекс полностью отказывается от неё. Host можно смело удалять из robots.txt. Вместо Host нужно настраивать 301 редирект со всех зеркал сайта на главный сайт (главное зеркало).

Подробнее читайте на сайте Яндекса.

Поддерживаемые директвы от Google.

Заключение

Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу, ссылаясь на неправильный код robots.txt. Я больше склоняюсь ко второму.

—

На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

◂ Меню на jQuery

10+ приемов с админкой WordPress (сайт для клиента) ▸

208 комментариев

Полезные - 28Вопросы - 2 Все

Gori4ka 49

Здравствуйте. Каким образом в WP создаётся robots.txt?

2

9.5 лет назад #
- Kama 9892
  
  Он руками создается: в корне сайта создайте файл robots.txt. Еще можно динамически создать через читайте do_robots()
  
  0
  
  9.5 лет назад #
Renton88 oldband.ru

Здравствуйте! Создал у себя страницу http://example.com/feedback/, а она закрыта для индексации директивой

Disallow: */feed

Это решается только через

Allow: /feedback/

Или есть более правильные решения?

0

9.5 лет назад #
- Kama 9892
  
  Вроде нет, норм решение вроде.
  
  0
  
  9.5 лет назад #
  - Renton88 oldband.ru
    
    Спасибо за ответ.
    Просто подумалось, что если, чисто теоретически, возникнет необходимость создать много страниц начинающихся на "feed..." - будет проблемы.
    
    Раз уж тут пишу, скажу вам здесь спасибо за Ваш ресурс. Лучший справочник по wp в рунете у Вас, очень много почерпнул здесь.
    
    Мерси.
    
    0
    
    9.5 лет назад #
    - Kama 9892
      
      Вот ссылка для спасибо
      
      0
      
      9.5 лет назад #
Руслан

Ребята, не закрывайте для гугл бота /wp-content/themes и /wp-content/themes он перестает видеть адаптивность страниц из-за блокировки файлов CSS. проверьте сами в серчь-консолях, хотя яндекс по прежнему видит их адаптивными

1

9.5 лет назад #
- Renton88 oldband.ru
  
  Allow: /*/*.css # внутри /wp- (/*/ - для приоритета)
  
  Вот же. Сёрчт консоль говорит, что все ок.
  
  0
  
  9.5 лет назад #
  - Kama 9892
    
    В первом варианте кода нет правила /wp-content/themes ... Поэтому Allow: /*/*.css работает...
    
    В этом случае нужно такое уже: Allow: /wp-content/themes*.css
    
    0
    
    9.5 лет назад #
Саша

Нельзя блокировать css и js! Гугл это чётко сказал так же как Яндекс. А вы советуете блокировать /wp-includes/ /wp-content/ где и лежат эти файлы. Поисковики сейчас учитывают вашу "красоту" сайта для ранжирования. Для этого есть в "вебмастерах" Яндекса и Гугла посмотреть как гуглбот или яндексбот.

2

9.4 года назад #
- Kama 9892
  
  Где, кто советует?
  
  0
  
  9.4 года назад #
  - ArFree
    
    https://support.google.com/webmasters/answer/6153277?authuser=0
    Да и в Search Console часто ошибки, если заблокированны .js, .css
    
    0
    
    9.4 года назад #
    - Kama 9892
      
      А где я советую блокировать-то? В первом варианте это учтено! На этом сайте установлен первый вариант, при этом в консоли гугла, в блокированных ресурсах, проблем не вижу ...
      
      Не понимаю ваши комментарии...
      
      0
      
      9.4 года назад #
Алексей

почему Гугль выделяет эту строку?

0

9.4 года назад #
- Kama 9892
  
  Ошибок 0, предупреждений 0. Какой URL проверяли при этом? Проверяемый URL запрещен указанным правилом в robots.txt. Гугль показывает что за правило сработало... В данном случае на запрет.
  
  1
  
  9.4 года назад #
Dmtry44 3

Тимур, а как быть с поддоменами?

Сайт сделан как sub1.example.com sub2.example.com.
При наборе example.com перенаправление на sub1.example.com (т.е. sub1 как основной).

В папке каждого поддомена в robots.txt прописывать в качестве Host: http://sub1.example.com (для sub1), http://sub2.example.com (для sub2) ?

Нужно ли где-то указывать Host как http://example.com ?

0

9.1 год назад #
- Kama 9892
  
  Думаю что нет example.com же не работает, а перекидывает на sub1 зачем его где-то указывать?
  
  0
  
  9.1 год назад #
Роман

Получается, чтобы открыть к примеру категорию news для индексации не нужно указывать Allow: /news - она открыта сама по себе, ее можно только заблокировать для индексации?

0

8.7 лет назад #
- Kama 9892
  
  Allow указан для всех по умолчанию, если ты не закрывал что-то похожее на /news, например Disallow: /new. То и открывать ничего не нужно, потому что и так открыто... А вот если закрывал, то да нужно открыть через Allow: /news.
  
  0
  
  8.7 лет назад #
Tod tods-blog.com.ua

Если в названии статьи если слово feed, то соотв. правило ее блокирует. Я так понимаю единственный вариант в allow писать названия данных статей? что-то не получается придумать там закономерность.

0

8.7 лет назад #
- Kama 9892
  
  Ты про */feed правило? Это не в названии, а если название начинается с feed. Покажи пример такой ссылки, может там в конце есть / тогда правило нужно изменить на */feed/. Может еще за что-то зацепиться можно. Нужен пример...
  
  0
  
  8.7 лет назад #
  - Tod tods-blog.com.ua
    
    В tods-blog.com.ua/robots.txt есть 9 allow с "feed" куда дописал конкретные адреса страниц, т.к. не смог придумать закономерность.
    
    0
    
    8.7 лет назад #
    - Kama 9892
      
      У тебя конкретно есть конечный слэш, а значит тебе нужно просто изменить правило */feed на */feed/. А если его не было бы, то нужно изменить на */feed$.
      
      Остальные привила allow вроде Allow: /tag/feedburner/$ можно уже убрать.
      
      Потом еще замечание, у тебя секции разбиты переносом строки, по моему так нельзя делать...
      
      0
      
      8.7 лет назад #
      - Tod tods-blog.com.ua
        
        Да, точно, со включенным ЧПУ ведь не будет ссылок типа feed=..
        Спасибо за помощь.
        
        0
        
        8.7 лет назад #
Иван perevod-pesen.ru

НЕЛЬЗЯ блокировать в robots.txt файлы темы
Disallow: /wp-content/themes

Google тогда не распознает css и может выдать, что все станицы не оптимизированы для мобильных устройств

1

8.6 лет назад #
- Kama 9892
  
  В первом варианте все это учтено... Ну и, директория /wp-content/themes вроде бы нигде не блокируется, откуда ты это взял?
  
  0
  
  8.4 года назад #
- newbie 35 yumchief.com
  
  Можно блокировать файлы темы, но для гугл бота нужно открывать все css и js файлы
  
  0
  
  8.2 года назад #

Настраиваем файл robots.txt для WordPress

Оптимальный код `robots.txt` для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка `robots.txt` и документация

`robots.txt` в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

Настраиваем файл robots.txt для WordPress

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка robots.txt и документация

robots.txt в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать /wp-admin/admin-ajax.php

Нельзя закрывать /wp-includes/

Не закрывайте фиды: */feed

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

До этого из: SEO

Последнее из: Настройка WP (кастомизация settings config)

Оптимальный код `robots.txt` для WordPress

Проверка `robots.txt` и документация

`robots.txt` в WordPress

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`