Статья на эту тему уже была на блоге wp-info.ru, здесь я предложу альтернативный вариант кода для robots.txt и немного подробнее разберу некоторые нюансы.
В этой статье я хочу привести пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих блогах на WordPress.
Для начала, ...
- Предыдущие записи
- Меню на jQuery ← 28 Июль 2011 // 14
- Пишем плагин: Методы деинсталяции плагинов ← 13 Июль 2011 // 6
- 3 способа построения циклов в WordPress ← 20 Июнь 2011 // 24
Данный пример robots.txt полностью некорректен!
Почему? Я проверил его в панелях веб мастеров в Гугле и Яндексе — показывают что все правильно и закрывают ссылки тоже правильно. Если имеется ввиду, что другие роботы не понимают Allow: , то это как бы их проблемы, и не так страшно это.
Дополнил и немного изменил статью. Теперь, думаю, гораздо ближе к истине . Спасибо!
Поправлюсь, я писал про:
Который начинается с директивы Host: www.site.ru
Начинать с такой директивы не стоит на всякий случай
Конечный корректный. Возможно я на момент написания комментария не сильно вник в текст поста, обратив внимание на цитату. Но, судя по корректировке, соглашусь с вышеописанным.
По поводу Host: - пишите в одной секцией с указанием User-agent: Yandex
Другие роботы понимают Allow. Вернее для Гугла это понятная директива. На остальных же действительно побоку, ибо в рунете трафик разделяют два поисковика.
По поводу сайтмап - читал руководство Гугл - они пишут про независимость, писать директиву отдельно через пустую строку. У Яндекса в примере сайтмап прописан в одной секции с их Юзер-агентом.
Да, если проверять по Вебмастеру, Яндекс может понимать различные части файла. Но что будет в результате — совершенно неизвестно.
Посмотрите вот это http://robotstxt.org.ru/robotstxterrors#Disallow_1
И обратите внимание на последствия нарушения стандарта http://forum.searchengines.ru/showthread.php?t=21783
Писать можно как угодно, но лучше соблюдать определенные конструкции.
В данном случае всю неразбериху вызывает директива Host, которая непонятна, например, Гуглу. Как повседет себя Гугл, мне лично неизвестно. Так что не стоит писать отдельной строкой эту директиву с начале файла.
Интересная ссылка на ветку серча — иногда вопрос может встать достаточно остро.
Написал вопрос в тех. поддержку Яндекса насчет Host и меж секционного использования Sitemap, посмотрим что ответят.
Тем не менее в документации, в одном из примеров Host: используется как раз в начале файла, поэтому я склоняюсь к мысли что Яндекс поймет её на ура. К тому же в доках написано, цитирую:
И получается, что дублировать все ради только одной строчки: Host: site.ru - не логично как-то.
П.С. Про частые ошибки прочитал внимательно. Оч полезная инфа! спс!
А стоит ли запрещать страницы навигации? &paged=2 и т.д. Потому как есть категория "вампиры" - и на ней куча постов по 6-10 штук на странице1, стр 2, стр3 и т.д. ведь записей отдельных к примеру 2000, вкупе с навигацией получится 7000 (так в данный момент у меня сейчас). Получается яндекс я обманул. т.к реальных записей в 3 раза меньше.
Еще у меня он проиндексировал xmlrpc.php - который тоже нужно закрыть
xmlrpc.php в индексе случайно и он непременно должен улететь от туда, да и не вижу я в его индексации чего-то плохого, но закрыть конечно можно.
Если страницы &paged=* не несут никакой полезной информации для пользователей (а это обычно так и есть) и они вам не нужны в индексе, то их логично закрыть. Единственное, может получится так, что такая страница по некоторым запросам может быть выше отдельной и в этом случае вы потеряете позиции по этим запросам. Не знаю насколько это частая ситуация, думаю не частая.
Спасибо большое,эта статья очень помогла.
По ссылке, указанной в начале статьи, закрытие от индексации происходит так:
Disallow: */trackback
Disallow: */feed
Disallow: */comments
В Ваших же рекомендациях делается это без звездочки (значка "*") так:
Disallow: /feed
Disallow: /trackback
Disallow: /comments
Если не секрет, в чем отличия?
Нет никакой разницы — это одинаковые вхождения. Вот если ?вхождение и *?вхождение, то тут без звездочки работать не будет насколько я понимаю.
Я вас обманул, сейчас глянул мануалы, оказывается есть разница:
/comments запретит только УРЛы начинающиеся с вхождения, а
*/comments не только начинающиеся, т.е. запретит оба таких УРЛа:
/something/comments/last.html
/comments/last
Хм, а прикладной смысл в этом?
Ведь, если конечно не сильно заблуждаюсь, это имеет смысл в разрезе чего-то тегоподобного (news, promo и т.д.). Приведенные же выше формы относятся к не дублирующимся директориям. Или как?
Обновил статью, кое какие моменты уточнил, кое что сам узнал, например:
Про Allow Google везде понимает Yandex только вначале! Изменил рекомендуемую строку
Allow: /wp-content/uploads
на
Allow: */uploads
Так универсальнее
В общем перечитайте, повторение мать...
а зачем у Вас индексируется http://wp-kama.ru/wp-login.php?action=lostpassword Или инструмент которым я пользуюсь не очень отвечает действительности?! http://pr-cy.ru/link_extractor?url=http%3A%2F%2Fwp-kama.ru И ещё очень интересно: отсутствие исходящих внешних ссылок, вообще, это из-за не любви к ним?
Так он ведь показывает просто внешние ссылки на странице, это еще совсем не значит что ссылка будет индексироваться, точнее страница куда она ведет. В частности эта ссылка у меня закрыта правилом: Disallow: /wp-. Индексацию лучше проверить как-то так.
Не решил еще на кого исходящие поставить, а к исходящим на счетчики всякие, у меня и в правду нелюбовь
спасибо за грамотное объяснение
спасибо за статью, попробую переделать файл, авось чего лучше станет
попробую сделать по уму, слышала, что Яндекс не любит когл=да одна статья по нескольким адресам доступна
Хорошая статья, я еще авторов закрываю от индексации...