Kama и campusboy5 месяцев назад208 EN

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Оглавление:

Оптимальный код robots.txt для WordPress
Версия 1 (не строгая)
Версия 2 (строгая)
Директивы (разбор кода)
ВАЖНО: Сортировка правил
Проверка robots.txt и документация
robots.txt в WordPress
robots_txt
do_robotstxt
Рекомендации
Ошибочные рекомендации
Спорные рекомендации
Нельзя закрывать /wp-admin/admin-ajax.php
Нельзя закрывать /wp-includes/
Не закрывайте фиды: */feed
Нестандартные Директивы
Clean-param
Crawl-delay (устарела)
Host (устарела)
Заключение

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Закрыть страницу от робота можно также через мета-тег robots или в HTTP-заголовке ответаX-Robots-Tag. Преимущество файла robots.txt в том, что робот при посещении сайта сначала загружает все правила из файла robots.txt и опираясь на них ходит по страницам сайта исключая из посещения страницы, URL которых не подходит под правила.

Таким образом, если мы закрыли страницу в robots.txt, робот просто пропустит её не сделав никаких запросов на сервер. А если мы закрыли страницу в заголовке X-Robots-Tag или мета-теге, роботу нужно сначала сделать запрос к серверу, получить ответ, посмотреть что находится в заголовке или метатеге и только потом принять решения индексировать страницу или нет.

Таким образом, файл robots.txt объясняет роботу какие страницы (URL) сайта нужно просто пропускать не делая никаких запросов. Это экономит время обхода роботом всех страниц сайта и экономит ресурсы сервера.

Рассмотрим на примере. Допустим, у нас есть сайт на котором всего 10 000 страниц (не 404 URL). Из них полезных страниц с уникальным контентом всего 3000, остальное это архивы по датам, авторам, страницы пагинации и другие страницы контент на которых дублируется (например фильтры с GET параметрами). Допустим, мы хотим закрыть от индексации эти 7000 неуникальных страниц:

если сделать это через robots.txt, то роботу для индексации всего сайта нужно будет посетить всего 3000 страниц остальное будет отсеяно сразу же на уровне URL.
если сделать это через мета-тег robots, то роботу для индексации всего сайта нужно будет посетить все 10 000 страниц сайта. Потому что нужно получить контент страницы, чтобы узнать что находится в мета-теге (в котором указано что страницу индексировать не нужно).

Несложно догадаться, что в этом случае первый вариант гораздо предпочтительнее потому что на обход сайта робот будет тратить гораздо меньше времени, а сервер будет генерировать гораздо меньше страниц.

Оптимальный код `robots.txt` для WordPress

Важно понимать, что ниже приведен универсальный пример кода для файла robots.txt. Для каждого конкретного сайта его нужно расширять или вносить корректировки. И лучше не трогайте ничего если не понимаете что делаете - обращайтесь к знающим людям.

Версия 1 (не строгая)

Эта версия, пожалуй, более предпочтительна по сравнению со второй, потому что тут нет опасности запретить индексацию каких либо файлов внутри ядра WordPress или папки wp-content.

User-agent: *                   # Создаем секцию правил для роботов. * значит для всех
								# роботов. Чтобы указать секцию правил для отдельного
								# робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin              # Стандартная папка на хостинге.
Disallow: /wp-admin/            # Закрываем админку.
Allow: /wp-admin/admin-ajax.php # Откроем аякс.
Disallow: /?                    # Все параметры запроса на главной.
Disallow: *?s=                  # Поиск.
Disallow: *&s=                  # Поиск.
Disallow: /search               # Поиск.
Disallow: /author/              # Архив автора.
Disallow: */embed$              # Все встраивания.
Disallow: */xmlrpc.php          # Файл WordPress API
Disallow: *utm*=                # Ссылки с utm-метками
Disallow: *openstat=            # Ссылки с метками openstat

# Одина или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

Версия 2 (строгая)

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP (Disallow: /wp-), а затем открываем, там где нужно.

Этот код я пожалуй не рекомендовал бы, потому что тут закрывается все от wp- и нужно будет описать все что разрешено. Так в будущем, когда WP введет что-то новое, это новое может стать недоступно для роботов. Так например получилось с картой сайта WP.

User-agent: *                  # Создаем секцию правил для роботов. * значит для всех
							   # роботов. Чтобы указать секцию правил для отдельного
							   # робота, вместо * укажите его имя: GoogleBot, Yandex.
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /wp-                 # Все связанное с WP - это: /wp-content /wp-admin
							   # /wp-includes /wp-json wp-login.php wp-register.php.
Disallow: /wp/                 # Каталог куда установлено ядро WP (если ядро установлено
							   # в подкаталог). Если WP установлен стандартно, то
							   # правило можно удалить.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed$             # Все встраивания.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat
Allow:    */wp-*/*ajax*.php    # AJAX запросы: */admin-ajax.php */front-ajaxs.php
Allow:    */wp-sitemap         # карта сайта (главная и вложенные)
Allow:    */uploads            # открываем uploads
Allow:    */wp-*/*.js          # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.css         # внутри /wp- (/*/ - для приоритета)
Allow:    */wp-*/*.png         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.jpeg        # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.gif         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.svg         # картинки в плагинах, cache папке и т.д.
Allow:    */wp-*/*.webp        # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.swf         # файлы в плагинах, cache папке и т.д.
Allow:    */wp-*/*.pdf         # файлы в плагинах, cache папке и т.д.
							   # Секция правил закончена

# Одна или несколько ссылок на карту сайта (файл Sitemap). Это независимая
# директива и дублировать её для каждого User-agent не нужно. Так например
# Google XML Sitemap создает 2 карты сайта:
Sitemap: http://example.com/wp-sitemap.xml
Sitemap: http://example.com/wp-sitemap.xml.gz

# Версия кода: 2.0
# Не забудьте поменять `example.com` на ваш сайт.

В правилах Allow: вы можете видеть дополнительные, казалось бы ненужные, знаки * - они нужны для увеличения приоритета правила. Зачем это нужно смотрите в сортировке правил.

Директивы (разбор кода)

User-agent:

Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

User-agent: * — указывает, что правила после этой строки будут работать для всех поисковых роботов.
User-agent: ИМЯ_РОБОТА — указывает конкретного робота, для которого будет работать блок правил. Например: User-agent: Yandex, User-agent: Googlebot.

Возможные роботы (боты) Яндекса:

Yandex робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или *. Если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Yandex — любой робот Яндекса.
YandexImages - Индексирует изображения для показа на Яндекс Картинках.
YandexMedia - Индексирует мультимедийные данные.
YandexDirect - Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы.
YandexDirectDyn - Скачивает файл фавиконки сайта для отображения в результатах поиска.
YandexBot - Основной индексирующий робот.
YandexAccessibilityBot - Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера.
YandexAdNet - Робот Рекламной сети Яндекса.
YandexBlogs - Робот поиска по блогам, индексирующий комментарии постов.
YandexCalendar - Робот Яндекс Календаря. Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
YandexDialogs - Отправляет запросы в навыки Алисы.
YaDirectFetcher - Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах.. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexForDomain - Робот почты для домена, используется при проверке прав на владение доменом.
YandexImageResizer - Робот мобильных сервисов.
YandexMobileBot - Определяет страницы с версткой, подходящей под мобильные устройства.
YandexMarket - Робот Яндекс Маркета.
YandexMetrika - Робот Яндекс Метрики. Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс Директа. Робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
YandexMobileScreenShotBot - Делает снимок мобильной страницы.
YandexNews - Робот Яндекс Новостей.
YandexOntoDB - Робот объектного ответа.
YandexOntoDBAPI - Робот объектного ответа, скачивающий динамические данные.
YandexPagechecker - Обращается к странице при валидации микроразметки через форму Валидатор микроразметки.
YandexPartner - Скачивает информацию о контенте сайтов-партнеров Яндекса
YandexRCA - Собирает данные для формирования превью. Например, для расширенного отображения сайта в поиске.
YandexSearchShop - Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
YandexSitelinks - Проверяет доступность страниц, которые используются в качестве быстрых ссылок.
YandexSpravBot - Робот Яндекс Бизнеса.
YandexTracker - Робот Яндекс Трекера.
YandexTurbo - Обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс Вебмастера и директиву Crawl-delay.
YandexUserproxy - Проксирует действия пользователей на сервисах Яндекса: отправляет запросы в ответ на нажатие кнопок, скачивает страницы для перевода онлайн и т. д.
YandexVertis - Робот поисковых вертикалей.
YandexVerticals - Робот Яндекс Вертикалей: Авто.ру, Янекс.Недвижимость, Яндекс Работа, Яндекс Отзывы.
YandexVideo - Индексирует видео для показа в поиске Яндекса по видео.
YandexVideoParser - Индексирует видео для показа в поиске Яндекса по видео.
YandexWebmaster - Робот Яндекс Вебмастера.

Полный список роботов Яндекса.

Возможные роботы (боты) Google:

Googlebot — основной индексирующий робот.
Googlebot-Image — индексирует изображения.
Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.
Полный список роботов Google.

Disallow:

Запрещает роботам "ходить" по ссылкам, в которых встречается указанная подстрока:

Disallow: /cgi-bin — закрывает каталог скриптов на сервере.
Disallow: *?s= — закрывает страницы поиска.
Disallow: */page/ — закрывает все виды пагинации.
Disallow: */embed$ — закрывает все URL заканчивающиеся на /embed.

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило:

Disallow: /news

Оно запретить роботам ходить по ссылками такого вида:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Если нужно закрыть любые вхождения /news, то пишем:

Disallow: */news

Закроет:

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

ВАЖНО о кириллице: роботы не понимают кириллицу, её им нужно предоставлять в кодированном виде. Например:

Disallow: /каталог                                    # неправильно.
Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 # правильно.

Allow:

В строке Allow: */uploads мы намеренно разрешаем индексировать страницы, в которых встречается /uploads. Это правило обязательно, т.к. выше мы запрещаем индексировать страницы начинающихся с /wp-, а /wp- входит в /wp-content/uploads. Поэтому, чтобы перебить правило Disallow: /wp- нужна строчка Allow: */uploads, ведь по ссылкам типа /wp-content/uploads/... у нас могут лежать картинки, которые должны индексироваться, так же там могут лежать какие-то загруженные файлы, которые незачем скрывать.
Allow: может быть расположена "до" или "после" Disallow:. При чтении правил роботы их сначала сортируют, затем читают, поэтому не имеет значения в каком месте находится Allow:, Disallow:. Подробнее о сортировке смотрите ниже.

Sitemap:

Правило Sitemap: http://example.com/sitemap.xml указывает роботу на файл с картой сайта в формате XML. Если у вас на сайте есть такой файл, то пропишите полный путь к нему. Таких файлов может быть несколько, тогда нужно указать путь к каждому файлу отдельно.

ВАЖНО: Сортировка правил

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

User-agent: *
Allow: */uploads
Disallow: /wp-

будет прочитана как:

User-agent: *
Disallow: /wp-
Allow: */uploads

Таким образом, если проверяется ссылка вида: /wp-content/uploads/file.jpg, правило Disallow: /wp- ссылку запретит, а следующее правило Allow: */uploads её разрешит и ссылка будет доступна для сканирования.

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Проверка `robots.txt` и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Яндекс: http://webmaster.yandex.ru/robots.xml.
Google: https://www.google.com/webmasters/tools/robots-testing-tool Нужна авторизация и наличия сайта в панели веб-мастера.
Яндекс документация robots.txt.
Google документация robots.txt

`robots.txt` в WordPress

ВАЖНО чтобы в корне вашего сайта НЕ было файла robots.txt! Если он там есть, то все описанное ниже просто не будет работать, потому что ваш сервер будет отдавать контент этого статического файла.

В WordPress запрос /robots.txt обрабатывается нестандартно. Для него «налету» создается контент файла robots.txt (через PHP).

Динамическое создание контента /robots.txt позволит удобно изменять его через админку, хуки или SEO плагины.

Изменить содержание robots.txt можно через:

Хук robots_txt.
Хук do_robotstxt.
Плагин https://wordpress.org/plugins/pc-robotstxt/ или ему подобные.

Рассмотрим оба хука: чем они отличаются и как их использовать.

Читайте также: Настраиваем файл robots.txt для WordPress.

robots_txt

По умолчанию WP 5.5 создает следующий контент для страницы /robots.txt:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: http://example.com/wp-sitemap.xml

Смотрите do_robots() — как работает динамическое создание файла robots.txt.

Этот хук позволяет дополнить уже имеющиеся данные файла robots.txt. Код можно вставить в файл темы functions.php.

// Дополним базовый robots.txt
// -1 before wp-sitemap.xml
add_action( 'robots_txt', 'wp_kama_robots_txt_append', -1 );

function wp_kama_robots_txt_append( $output ){

	$str = '
	Disallow: /cgi-bin             # Стандартная папка на хостинге.
	Disallow: /?                   # Все параметры запроса на главной.
	Disallow: *?s=                 # Поиск.
	Disallow: *&s=                 # Поиск.
	Disallow: /search              # Поиск.
	Disallow: /author/             # Архив автора.
	Disallow: */embed              # Все встраивания.
	Disallow: */page/              # Все виды пагинации.
	Disallow: */xmlrpc.php         # Файл WordPress API
	Disallow: *utm*=               # Ссылки с utm-метками
	Disallow: *openstat=           # Ссылки с метками openstat
	';

	$str = trim( $str );
	$str = preg_replace( '/^[\t ]+(?!#)/mU', '', $str );
	$output .= "$str\n";

	return $output;
}

В результате перейдем на страницу /robots.txt и видим:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cgi-bin             # Стандартная папка на хостинге.
Disallow: /?                   # Все параметры запроса на главной.
Disallow: *?s=                 # Поиск.
Disallow: *&s=                 # Поиск.
Disallow: /search              # Поиск.
Disallow: /author/             # Архив автора.
Disallow: */embed              # Все встраивания.
Disallow: */page/              # Все виды пагинации.
Disallow: */xmlrpc.php         # Файл WordPress API
Disallow: *utm*=               # Ссылки с utm-метками
Disallow: *openstat=           # Ссылки с метками openstat

Sitemap: http://example.com/wp-sitemap.xml

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их.

do_robotstxt

Этот хук позволяет полностью заменить контент страницы /robots.txt.

add_action( 'do_robotstxt', 'wp_kama_robots_txt' );

function wp_kama_robots_txt(){

	$lines = [
		'User-agent: *',
		'Disallow: /wp-admin/',
		'Disallow: /wp-includes/',
		'',
	];

	echo implode( "\r\n", $lines );

	die; // обрываем работу PHP
}

Теперь, пройдя по ссылке http://site.com/robots.txt увидим:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Нестандартные Директивы

Clean-param

Google не понимаю эту директиву. Указывает роботу, что URL страницы содержит GET-параметры, которые не нужно учитывать при индексировании. Такими параметрами могут быть идентификаторы сессий, пользователей, метки UTM, т.е. все то что не влияет на содержимое страницы.

Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска. Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы, в которых параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница:

example.com/dir/bookname?ref=site_1
example.com/dir/bookname?ref=site_2
example.com/dir/bookname?ref=site_3

Если указать директиву следующим образом:

User-agent: Yandex
Clean-param: ref /dir/bookname

то робот Яндекса сведет все адреса страницы к одному:

example.com/dir/bookname

Пример очистки нескольких параметров сразу: ref и sort:

Clean-param: ref&sort /dir/bookname

Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. Если директив указано несколько, все они будут учтены роботом.

Crawl-delay (устарела)

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Crawl-delay: 1.5

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Allow: /wp-*.gif

Google не понимает эту директиву. Таймаут его роботам можно указать в панели вебмастера.

Яндекс перестал учитывать Crawl-delay

Подробнее Яндекс перестал учитывать Crawl-delay:

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Для чего была нужна директива Crawl-delay

Когда робот сканирует сайт как сумасшедший и это создает излишнюю нагрузку на сервер. Робота можно попросить «поубавить обороты». Для этого можно использовать директиву Crawl-delay. Она указывает время в секундах, которое робот должен простаивать (ждать) для сканирования каждой следующей страницы сайта.

Host (устарела)

Google Директиву Host никогда не поддерживал, а Яндекс полностью отказывается от неё. Host можно смело удалять из robots.txt. Вместо Host нужно настраивать 301 редирект со всех зеркал сайта на главный сайт (главное зеркало).

Подробнее читайте на сайте Яндекса.

Поддерживаемые директвы от Google.

Заключение

Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу, ссылаясь на неправильный код robots.txt. Я больше склоняюсь ко второму.

—

На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

◂ Меню на jQuery

10+ приемов с админкой WordPress (сайт для клиента) ▸

208 комментариев

Полезные - 28Вопросы - 2 Все

Дмитрий dobro-est.com

К сожалению, правило запрета к индексации страниц с фидом в конце: https://example.html/feed не помогает запретить гуглу к их индексации. Они отображаются в "Покрытие" серчконсоли в пункте "Проиндексировано, несмотря на блокировку в файле robots.txt".

0

7.5 лет назад #
- Kama 9894
  
  robots.txt код покажи.
  
  0
  
  7.5 лет назад #
Денис Бидюков dampi.ru

Ходят слухи, что Google иногда может проигнорировать правила в robots.txt и взять страницу в индекс, если сочтет, что страница ну очень уникальная и полезная и она просто обязана быть в индексе. Однако другие слухи опровергают эту гипотезу тем, что неопытные оптимизаторы могут неправильно указать правила в robots.txt и так закрыть нужные страницы от индексации и оставить ненужные. Я больше склоняюсь ко второму предположению...

Тут в большей степени не понимание логики работы гугла. Он может добавить url в индекс, но без description, поскольку страница закрыта в robots.txt, а в качестве тайтла взять анкор из ссылки, которая указывает на закрытую страницу. Нечто подобное я видел у Яндекса, но в отношении главной страницы, когда прикрыт весь сайт.

1

7.1 год назад #
Цифровой digital-boom.ru

А зачем закрывать фиды? Что это дает нам?

1

7.1 год назад #
- Kama 9894
  
  Да вроде ничего не дает, можно не скрывать. Тут встречный вопрос, зачем их открывать, что это нам дает?
  
  1
  
  7.1 год назад #
  - Цифровой digital-boom.ru
    
    Например, это требует Яндекс Дзен, если нужно полключить сайт к каналу. Также не удивлюсь, что это нужно для Гугл и Яндекс новостей, если портал новостной, например. Пульс от мэйл ру, фидбернер и так далее...
    
    2
    
    7.1 год назад #
    - Kama 9894
      
      Тогда не надо закрывать, сча уберу из примеров. Спасибо!
      
      1
      
      7.1 год назад #
      - Цифровой digital-boom.ru
        
        Вы поспешили. Я ничего не утверждаю пока, а только пытаюсь разобраться.
        
        2
        
        7.1 год назад #
        
        Kama 9894
        
        Так Яндекс Дзен этого требует или это у вас фигура речи такая?
        
        Не думаю, что поспешил, действительно я не понимаю зачем надо закрывать от индексации фид, который очевидно не будет находится в обычной поисковой выдаче по классическим запросам... Может закрыть - это ничего страшного, но не закрывать думаю тоже ничего страшного, поэтому пусть лучше открыто.
        
        0
        
        7.1 год назад #
        
        Цифровой digital-boom.ru
        
        https://yandex.ru/support/zen/website/rss-modify.html
        
        Подписано, что это "рекомендации", но, зная яндекс, я бы расценивал это именно как требование. Особенно учитывая, что есть ВСЕГО 1 ПОПЫТКА на подключение сайта к Дзену.
        
        1
        
        7.1 год назад #
        
        Сергей
        
        Добрый день!
        
        Гугл прислал уведомление, что закрытие фида - ошибка
        
        0
        
        6.7 лет назад #
    - Юрий astro-world.ru
      
      Кроме Дзена, это нужно и для Турбо-страниц. Там лента используется как источник, и если её закрыть, Яндекс ругается.
      
      1
      
      6.7 лет назад #
      - lawyer_ovr 2
        
        Я в робост для Yandex добавил Allow: /feed/turbo/
        
        0
        
        4.5 лет назад #
Артур alliancesafety.com.ua

Добрый день. У меня вопрос по строке Disallow: /author/
Я почему-то раньше думал, что команда запрещает обходить учетные записи авторов сайта (их био, ссылки на соцсети и т.д.). У вас же указано, что это архив автора. Нет ли здесь ошибки?

-1

7 лет назад #
- Kama 9894
  
  Это страница архива автора (постов автора) она запрещена для обхода, ибо нафиг...
  
  -1
  
  7 лет назад #
  - Артур alliancesafety.com.ua
    
    Век живи - век учись. Спасибо!
    
    1
    
    7 лет назад #
  - YEAV 1
    
    А если это кулинарный сайт и на нем есть несколько авторов, разве архивы их постов не будут уникальными (интересными для SEO) разделами?
    
    0
    
    6.9 лет назад #
    - Kama 9894
      
      Я не SEO спец, но я бы закрыл, потому что например чел ищет рецепат и попадает на страницу архива, где то что он ищет находится где-то непонятно где и это только кусочек из самого рецепта. Скорее всего он не найдет на этой странице то что ищет, а даже если найдет ему надо будет идти дальше в статью...
      
      Более того, видел еще и такой казус: заходишь на такую страницу, а там вообще нет того что показал поисковик, потому что он индексировал эту страницу скажем пару недель назад и пост сдвинулся на страницу пагинации, тогда вообще лажа какая-то получается...
      
      0
      
      6.9 лет назад #
Любовь

Здравствуйте, а как вы считаете, тэги на сайте надо закрывать от индексации?

0

7 лет назад #
- Kama 9894
  
  Думаю надо, потому что для поисковиков (для выдачи) там нет ничего интересного, кроме случаев когда тег представляет собой ценность в виде какого-то уникального/полезного контента.
  
  Например, на этом сайте все теги закрыты от индексации, но если у тега есть описание он открывается. Вот пример открытого тега https://wp-kama.ru/function-tag/api-optsij а вот закрытого https://wp-kama.ru/function-tag/ajax
  
  Но тут закрытие и открытие происходит на уровне метатегов в HTML. В robots в этом случае закрывать нельзя, потому что робот даже не дойдет до чтения метатегов, так как ему сказано вообще не смотреть указанную ссылку...
  
  В общем, все зависит от контента на вашем сайте, однозначно нельзя ответить надо ли закрывать теги или нет, как правило лучше закрыть, но есть исключения.
  
  0
  
  7 лет назад #
Роман

Спасибо, поставил роботс, который вы прописали в теме. Думаю яндекс не будет выдавать ошибки

0

7 лет назад #
nivescio 1

Добрый день! Нубский вопрос.
Не могу понять одну вещь. Вот есть сайт на вордпресс, есть личные кабинеты пользователя, где пользователь вводит некоторую информацию о себе (фио, телефон и т.п.) и в дальнейшем эта информация отображается в личном кабинете этого пользователя. Неавторизованный пользователь, соответственно, такую информацию не видит. А что с поисковыми ботами? Нужно от них специально всё это дело закрывать через robots.txt Или ещё как-то? Или всётаки, они инфу для которой требуется авторизация не видят?

0

6.7 лет назад #
- user
  
  обязательно закрывайте,иначе индексируется информация об авторе
  
  1
  
  5.6 лет назад #
Иван 51

О! Обновилось... Приятно осознавать, что статья актуальная, а то раньше видел ее старой датой, думал устарело. Зашел скопи-пастить, позже почитаю основательно. Спасибо.

0

6.2 года назад #
Vkad

Некоторые советуют если не разбираешься, вообще не делать файл! Так ли это?

0

6.2 года назад #
- Kama 9894
  
  Да так, роботы и сами что-то умеют фильтровать, а также движки редиректить куда надо. А не зная темы закроешь что не нужно и в минус уйдешь. Надо именно понимать что делаешь и зачем это надо.
  
  0
  
  6.2 года назад #

Настраиваем файл robots.txt для WordPress

Оптимальный код `robots.txt` для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка `robots.txt` и документация

`robots.txt` в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

Настраиваем файл robots.txt для WordPress

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка robots.txt и документация

robots.txt в WordPress

robots_txt

do_robotstxt

Рекомендации

Ошибочные рекомендации

Спорные рекомендации

Нельзя закрывать /wp-admin/admin-ajax.php

Нельзя закрывать /wp-includes/

Не закрывайте фиды: */feed

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

До этого из: SEO

Последнее из: Настройка WP (кастомизация settings config)

Оптимальный код `robots.txt` для WordPress

Проверка `robots.txt` и документация

`robots.txt` в WordPress

Нельзя закрывать `/wp-admin/admin-ajax.php`

Нельзя закрывать `/wp-includes/`

Не закрывайте фиды: `*/feed`