WordPress как на ладони
Наставник Трепачёв Д.П., phphtml.net wordpress jino

Как избавиться от множества дублей рубрик

Подскажите, пожалуйста, что делать с огромным количеством дублей архивных страниц (рубрик и тегов) - они, хотя и закрыты от индексации, но сервер нагружают при обходе робота.

Не знаю, как их вычистить.

Прикрепляю скриншот с выборкой.

0
Гость 11 месяцев назад
  • 1
    campusboy1730 cайт: wp-plus.ru
    @

    Приветствую. А как Вы закрыли от индексации? Можно же через robots.txt, можно через мета тег на самой страницы. Чтобы робот туда вообще не ходил, то надо в robots.txt прописывать. И то, это для них скорее рекомендация, а не правило, всё равно будут туда бегать. В целом, я никогда не закрываю такие вещи в robots.txt, а использую метатег "noindex, follow", чтобы роботы в индекс не добавляли эти страницы, но могли беспрепятственно бегать по разделу и переходить в статьи, сканируя их. Эдакая карта сайта, в итоге. А по другому как Вы закроете доступ роботам, но оставите для пользователей? Можно, конечно, попотеть и написать правила в htaccess (хотя я не уверен в успехе) или же написать скрипт, определяющий что за бот/человек пришёл (всё равно серваку напрягаться). Но стоит ли игра свеч, вот в чем вопрос? Ставьте страничный кеш на сайте, а также можно ещё в добавок к cloudflare.com подключить сайт, он мне снизил нагрузку на 20% в среднем за счёт своего кеширования.

    Денис 11 месяцев назад

    Здравствуйте! Спасибо за ответ! Закрыл от индексации через All in one seo (canonical pagination тоже закрыт). Но проблема не в этом. Проблема в том, что нечто (мне кажется, это плагин P3 Plugin Performance Profiler от GoDaddy - его я уже удалил, но ничего не изменилось) создало на моем сайте огромное количество дублей архивных страниц (более 500 тыс.), через которые ежедневно продирается бот Яндекса, нагружая мой сервер. Я хотел бы узнать, есть ли способ эти страницы УДАЛИТЬ (а не просто закрыть от индексации - в админке они нигде не отображаются) из базы данных? Где там вообще хранятся данные о paginated pages/archives?
    Заранее спасибо!

    campusboy 11 месяцев назад

    P3 Plugin Performance Profile не может быть корнем зла, так как этот плагин измеряет скорость работы темы и плагинов, он ничего не создаёт, кроме отчёта после сканирования в админке.

    Данные о paginated pages нигде не хранятся, они генерируются движком на лету. Зачем их удалять? А как пользователи будут просматривать Ваш список статей? Или им достаточно тех 10, что выводятся по умолчанию? smile Кстати, рекомендуется поставить вывод вместо 10 статей на вывод большим количеством. К примеру, я себе поставил 50 сразу. Получается, при значении в 10 у меня было 4 страницы пагинации при 50 записях, а теперь только 1 и то главная страница рубрики, к примеру. И пользователю удобно, он просто листает вниз и всё. И боту удобно, бац и сразу 50 ссылок на статьи получил.

    Чтобы бот не кошмарил сайт частыми запросами, можно в robots.txt указать ему, чтобы делал это не так часто, к примеру мой robots на одном из слабеньких хостингов:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-content/cache/
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /metki/
    Disallow: */attachment/
    Disallow: /author/
    Disallow: /page/
    Disallow: /20*
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*.php
    Disallow: /logout?*
    Crawl-delay: 2 # задает таймаут в 2 секунды
    Sitemap: http://mysite.ru/sitemap.xml

    На качество индексации параметр Crawl-delay, просто просит бота делать это 1 раз в 2 секунды.

    Саму пагинацию я бы не стал убирать совсем, хотя способы есть 100%. К примеру, один из них описан в статье о функции query_posts.

    Денис 11 месяцев назад

    Спасибо за ответ! Я вовсе не хочу закрывать/удалять пагинацию. Я хочу удалить только те более 500 тыс. "левых" страниц. Посмотрите, пожалуйста, на скриншот, что я прицепил в самом начале (http://s1.bild.me/bilder/240416/9133067ds-lotsofpages.jpg) - это маленькая выборка страниц, которые пробегает yandexbot. На фото видно, что многие страницы имеют в адресе P3_NOCACHE и P3_HIDE-ADMIN_BAR - эти значения появляются ТОЛЬКО во время сканирования P3 Plugin Performance Profiler, отсюда и мой вывод, что виноват именно этот плагин. Если страницы пагинации нигде не хранятся, то что их создает в таком количестве? Р3 плагин я удалил. Кэширующий плагин очищал/удалял. Я могу понять пару десятков ненужных дублей, но когда речь идет о более, чем пятьсот тысяч страниц дублей (при этом контента на сайте на 200 страниц с копейками), то это выглядит, мягко говоря, странно.

    campusboy 11 месяцев назад

    Вместо писанины записал видео. Кстати, насчёт последнего ошибся, правило Disallow: /page/ будет распространяться на все страницы пагинации.

    campusboy 11 месяцев назад

    А какой Вы эффект ждали? smile Сразу чтобы они вылетели с индекса? Не, они не такие шустрые, должно пройти время, порой даже продолжительное, особенно у Яшки.

    Денис 10 месяцев назад

    Спасибо за ответ! Все эти страницы итак НЕ в индексе Яндекса, т.к. на них стоит noindex. Проблема не в этом.

    Проблема в том, что yandexbot ВСЕ РАВНО их пробегает, нагружая сервер и тормозя сайт. Использование Disallow: /?P3* никакого эффекта не дало.

    Комментировать
На вопросы могут отвечать только зарегистрированные пользователи. Регистрация. Вход.