Эффективный метод удаления дублей страниц

Добрый день, уважаемые читатели! Сегодня мы поговорим об очень важном моменте в настройке блога: а именно удалении дублированного контента или дублей страниц и о правильной настройке блога, чтобы эти дубли больше не появлялись.

Я давно пыталась найти решение этой проблемы. Информации в Интернете много, но она однотипна и по большей части ошибочна.

Это я проверила на себе, так как использовала способы описанные в различных статьях, но от этого дублей меньше не становилось. Но благодаря одному блоггеру решение было найдено. Итак, обо всем по порядку.

Вы узнаете:

  • что такое дубли страниц;
  • как проверить блог на наличие дублей;
  • как от них избавиться.

Что такое дубли страниц

Дублированный контент создается, когда одна и та же страница доступна по нескольким адресам.

Дубли могут создаваться за счет внешних и внутренних факторов.

  • К внешним фактором относится — воровство контента. Когда кто-то скопировал Вашу статью, а она еще не успела проиндексироваться, то она становится дублем. Выход здесь один защищать свои статьи от копирования всеми возможными способами и ускорять их индексацию.
  • Но дубли создает и Ваш движок WordPress. Это классная платформа для ведения блога, но и у нее есть недостатки.

Если вы перейдете в рубрику, где находится нужная вам статья, то увидите следующую ссылку:

категория в рубрике

А если будете искать статью с помощью меток или тегов, то увидите следующее:

дубли страниц

 А анонс на главной странице будет иметь следующий адрес:

навигация по блогу

 Все эти ссылки создают дубли страниц. И это еще не все проблемы с дубликатами страниц.

Как найти дубли страниц

В этом вам помогут инструменты для Вебмастеров от Яндекса и Гугл. О них я уже упоминала в этой статье. И если вы еще не зарегистрировали в них свой блог, то очень советую это сделать.

В Яндексе выбираете раздел «Индексирование сайта» →»Страницы в поиске»:

страницы в поиске

И смотрите, какие ссылки находятся в индексе и нет ли дублей. У меня было около 50 дублирующих ссылок. О том, что с ними делать, вы узнаете чуть позже.

Также не забудьте проверить ссылки и в инструментах для вебмастеров Google:

внутренние ссылки google

 Но если тут все в порядке, то это не значит, что дублей нет. Особенно это качается Гугл. У него кроме основного индекса есть еще и дополнительный (Supplemental Index или Сопли). И вот туда он отправляет очень много ссылок. Они не появляются в основной выдаче, но очень сильно мешают продвижению, так как Google может наложить фильтр за дублированный контент.

Чтобы проверить, есть ли у Вас дубли наберите в поисковой строке: site:domhozka.ru 

Разумеется Вы указываете домен Вашего блога.

Смотрите, что получается у меня:

страницы в индексе

Найдено 1890 ссылок, хотя должно быть всего 130 не более. Это значит, что на блоге полно дублей. Перейдите на последнюю страницу и нажмите «Отобразить скрытые данные»:

скрытые результаты

Снова перейдите ближе к концу и Вы увидите эти дубли:

дубли в выдаче

На скриншоте Вы видите дубли, которые создаются, когда пользователи отвечают на чей-то комментарий. И если у Вас на блоге происходит активное общение, то дубли могут разрастаться, как снежный ком.

О том, как удалить дубли replytocom я расскажу отдельно чуть дальше.

Также Вы можете проанализировать Ваш сайт с помощью сервиса seolib.ru (экспресс-анализ). Он покажет сколько процентов ссылок находится в дополнительном индексе. И если Вы увидите такую картину:

анализ seolib

То это опять же говорит, о наличии дублей.

Если в ссылке присутствуют переменные: replytocom, feed, trackback, attachement, attachement, page, category, то знайте, что это дубли. Чтобы проверить сколько ссылок с определенной переменной есть у Вас, добавьте после названия сайта переменную, например, site:domhozka.ru replytocom и нажмите на показать скрытые результаты. И так с каждой переменной.

Как удалить дублированный контент

В блогосфере было принято закрывать дубли с помощью файла robots.txt. Этим способом пользуются 99% блоггеров и пользовалась и я.

Но это не решает проблему, а наоборот создает ее. Так как Google не реагирует на команды в роботсе, вернее реагирует не так, как нам надо. Он видит, что страница закрыта от индексации и так как не знает, что это за страница на всякий случай отправляет ее в дополнительный индекс. Теперь Вы поняли откуда берутся дубли? Все из-за неправильного robots.txt.

Нельзя закрывать дубли с помощью robots.txt. Конечно, это не означает, что теперь этот файл стал не нужным.

Нет для того, чтобы Ваш блог индексировался, он необходим, но в нем должно быть как можно меньше информации. Мой robots.txt вы можете посмотреть здесь. А дубли стоит закрывать с помощью других инструментов.

О которых я сейчас и расскажу.

Главное зеркало сайта

Определите главное зеркало сайта. Зеркала — это сайты, которые являются полными или частичными копиями, например domhozka.ru и www.domhozka.ru.

Поисковые системы определяют данные зеркала, а затем склеивают их  и выбирают главное на свое усмотрение, если Вы не подсказали им, какой сайт Вы хотите сделать главным.

Для этого в файле robots прописывается директива: Host: domhozka.ru

Вы можете указать домен с www, если хотите сделать его главным зеркалом.

Далее Вы идете в инструменты Вебмастеров и указывает главное зеркало там. В Инструментах от Яндекса Вы выбираете:

Настройка индексирования → Главное зеркало:

главное зеркало в яндексе

В инструментах Гугл Вы нажимаете на шестеренку в правом верхнем углу и выбираете Настройки сайта:

главное зеркало для гугл

Имейте в виду, что в роботсе и в инструментах должно быть указано одно и то же главное зеркало.

Кроме этого можно настроить редирект 301 в файле htaccess

Я использую следующий вариант редиректа с www. domhozka.ru на домен без www:

RewriteCond %{HTTP_HOST} ^www\.(.*) [NC]
RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

301 редирект

Наиболее эффективный способ, но он требует специальных знаний. Если Вы ими не обладаете, то лучше всего будет обратиться к специалисту. Этот способ хорош еще и тем, что он помогает избавиться уже от существующих дублей.

Суть редиректа в том, что с помощью него происходит переадресация со страницы дубля на оригинальную.

Канонический URL

Еще один вариант предупредить дубли, это указать ПС каноническую страницу, то есть страницу которая будет основной и которую нужно отправить в основной индекс

Для этого на странице следует прописать тег link с атрибутом rel=»canonical»

У меня это реализовано с помощью плагина Yoast WordPress Seo. Если Вы откроете код любой статьи, то увидите этот тег:

каноническая страница Каноническая страница предотвращает появление дублей, но не приводит к удалению уже существующих.

Дубли для рубрик и тегов Вы также можете удалить с помощью seo плагина.  Заходите в Заголовки и метаданные → Таксономии и ставите галочку в строке Мета Robots в разделах Рубрики, Метки, Формат. Сохраняете изменения. Затем переходите во вкладку Остальное и отключаете Архивы автора и даты.

Дубли картинок

Теперь надо поработать над картинками. В Админ-панели WordPress зайдите в Настройки → Медиафайлы и везде поставьте 0. Это избавит Вас от дублей и сэкономит место на хостинге.

Этот способ подойдет не для всех. Сначала изучите, какие размеры картинок Вы используете на блоге. Например, если Вы выводите похожие записи с помощью миниатюр, то этот способ Вам не подойдет.

размер картинок

После вставки изображения в статью, удалите ссылку на нее здесь:

дубли картинок

Эта ссылка позволяет открыть картинку в новом окне, но в большинстве случаев это необязательно. У меня на блоге я оставила ссылки только для фотографий  о Марокко, чтобы их было удобнее смотреть при желании.

У остальных изображений я эту ссылку удалила, так как нет необходимости открывать на отдельной странице, тем самым создавая дублирование контента.

В новой версии WordPress эту ссылку можно удалить сразу после загрузки изображения. Просто проследите, чтобы в Настройках изображения в графе Ссылка стояло: нет. настройки изображения

Кроме этого стоит удалить ненужные картинки, которые накопились у Вас на хостинге. Сделать это очень легко с помощью плагина DNUI.

Но главную проблему представляют древовидные комментарии, так их больше всего.

Дубли Replytocom

Данные дубли создаются из-за кнопочки Ответить в комментариях. Как же от них избавиться?

  1. Отключить древовидные комментарии. Самый простой способ, но это затруднит общение с читателями. И возможно приведет к уменьшению их активности на блоге, а значит ухудшит поведенческие факторы. О ПФ читайте тут. Кстати, еще один важный момент в настройках комментариев никогда не ставьте галочку в графе Разбивать комментарии на страницы. Это опять же создаст дублированный контент.
  2.  Удалить переменные replytocom с помощью плагина Seo by Yoast ( раздел Постоянные ссылки), но если у пользователя отключен Java-script, он не сможет ответить на комментарий.
  3. Но есть способ лучше  и о нем рассказал Александр Борисов, кстати это и есть тот блоггер, который первым нашел решение для борьбы с дублями. Поэтому очень рекомендую прочитать его статью по борьбе с replytocom.

Надеюсь, статья была для Вас полезной и данная информация поможет улучшить позиции Вашего блога. У меня после применения этих знаний трафик на блоге вырос в 2 раза!

Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

  1. Алёна Семёнова

    Мда… Как сложно жить, сказала одна смешная актриса. 😕 Спасибо, Женя. Тебе можно платные услуги предлагать по поиску на других блогах дублированного контента.
    😎

    Ответить
    1. Евгения Куварина автор

      Ален, я еще со своим не разобралась окончательно 🙂

    2. Алёна Семёнова

      Жень, если что, я первая в очереди на удаление дубляжа… 😀

    3. Евгения Куварина автор

      Договорились 🙂

  2. Samnit

    а у меня вот такая картинка в роботе:
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    видимо, я второй в очереди 🙂

    Ответить
    1. Евгения Куварина автор

      Валерий, есть мнение, что чем меньше в роботсе прописано, тем лучше и все дубли стоит закрывать средствами движка, но как все закрыть только средствами движка я не знаю, поэтому и пользуюсь роботс. Стоит проверить, какие ссылки находятся в индексе и если нет ничего лишнего, то так и оставить

  3. Алех

    Да уш в своё время получался я с этими дублями, но сейчас вроде всё нормально.

    Хотя меня пугает следующее: Загружено роботом 257-> Исключено роботом 112-> Документ запрещен в файле robots.tx 108

    Зачем он их вообще загружает? ведь запрещено!

    Ответить
    1. Евгения Куварина автор

      Он же их должен загрузить, чтобы понять, что с ними делать. Запрещено индексировать, но чтобы это понять робот должен сначала все просканировать

    2. Алех

      может оно и так, но зачем мне это показывать? лучше б зашел посмотрел и молчок если в роботе запрещено

  4. Наталья

    Жень, если честно, то думала, что с роботом покончено(я с ним тоже много повозилась), ан нет похоже придется покопаться еще! 😐
    Я в очередь вставать не буду, просто если помучаю тебя в комментариях 😛

    Ответить
  5. Данил

    Полезная информация. Сейчас сяду за проверку своего роботс.тхт.

    Ответить
  6. Наталья

    Жень, мне конечно придется выявлять и удалять свои дубли, потому как действительно Яндекс их воспринимает как копированные, а я и думаю в чем же моя проблема!
    Очень жаль, что сразу не вникла 😐

    Ответить
  7. Наталья

    Женечка, что то я сразу не убрала слово categori из за этого много дублей оказывается. Ну да ладно , сделала сейчас.
    А вот как убрать tag, если искать с помощью меток и тегов не знаю, подскажи пожалуйста, где поправить?

    Ответить
    1. Евгения Куварина автор

      Наташ, tag нужно убирать с помощью robots, нужно там запретить индексировать ссылки с tag/ Там должна быть строка: Disallow: /tag/

    2. Наталья

      Жень, чтобы долго не мучиться, я взяла твой роботс, удалила категории,удалила ссылки с картинок.
      А как быть с уже имеющимися дублями, они удалятся или нужно с ними что то делать, не пойму, Жень? 😮

    3. Евгения Куварина автор

      Наташ, они постепенно удалятся, если ты их закрыла в роботсе, только понадобится время.
      По роботсу я тебе на почту написала, что подправить надо

    4. Наталья

      Спасибо Женя, все сделала, как ты мне написала

  8. Наталья

    Жень в инструментах для вэбмастеров Гугл мне еще выдали, что Файлы Sitemap отсутствуют, где мне их можно добавить?

    Ответить
    1. Евгения Куварина автор

      Наташ, ты когда в Интсрументах находишься на главной нажми на файлы sitemap (третий столбик), у тебя справа вверху появится надпись проверить/подтвердить sitemap? нажимаешь и указываешь адрес карты, сначала проверяешь, а потом уже добавляешь.

    2. Наталья

      Хорошо Жень, попробую, спасибо за подсказку 🙄

  9. Наталья

    Жень, я тут проверяла повторно свою статью на адвего, и он мне выдал около 5 ссылок, где мой текст, и все ведут на мой сайт. Что то я раньше такого не замечала. Скажи пожалуйста, это тоже дубли страниц? 😮

    Ответить
    1. Евгения Куварина автор

      Наташ, а ты посмотрела что за ссылки? Надо их увидеть, чтобы понять

  10. Наталья

    Жень ссылки с моего блога.
    Не могу просто понять, откуда они и есть ли это дубли страниц.
    Если сможешь, объясни Жень, если ты с этим конечно сталкивалась.

    Ответить
    1. Евгения Куварина автор

      Наташ, я с таким не сталкивалась, но дублей я тут не вижу, в адвего есть функция исключить домен, возможно, стоить прописать собственный домен, чтобы он искал только на других блогах

  11. Наталья

    Жень, у меня включены древовидные комментарии, могут из за них быть дубли страниц? Может лучше их отключить, что скажешь? 😮

    Ответить
    1. Евгения Куварина автор

      Наташ, могут, это ссылки с replytocom на конце, проверь есть ли они, я не отключала, а только запретила их в роботс, а для гугла в инструментах вебмастера

  12. Наталья

    Жень, а может просто их все таки отключить? Так проще по моему будет, если из за них могут быть дубли. Или эти древовидные комментарии для чего то нужны?

    Ответить
    1. Евгения Куварина автор

      Наташ, если ты их отключишь, то нельзя будет отвечать на комментарий, надо будет писать новый, а это не очень удобно для читателей.

  13. Наталья

    Да Жень, согласна, неудобно. И еще говоря о комментариях: когда оставляют новый коммент, он оказывается почти посередине, почему то.
    Может я , копаясь, что то не так сделала?
    Замучилась я с этими роботами и прочими! В комментариях что то бардак какой то стал- непонятно из за чего. 😮

    Ответить
    1. Евгения Куварина автор

      Наташ, роботс тут ни при чем, он только указывает поисковику, что закрывать от индексации, а что нет, а на остальное не влияет. Я посмотрела, у тебя вроде все нормально с комментариями

  14. Наталья

    Жень, скажи пожалуйста, у меня в роботсе прописано такое:
    User-agent: Mediapartners-Google
    Disallow: /yandex-direct
    Это как я понимаю для тех, у кого реклама от Гугл и Яндекс директ.
    А у меня то этого нет, может мне их нужно исключить? Или я что то не так понимаю..
    Ты меня извини пожалуйста, нагрузила тебя столькими вопросами, но разбираюсь сейчас с сайтом, так сказать, порядок навожу 🙂
    Твои ответы для меня очень важны!

    Ответить
    1. Евгения Куварина автор

      Да ничего, Наташ, задавай. Приятно быть а роли эксперта :). Да, все правильно, это для рекламы, так что эти строчки можно удалить спокойно.

    2. Наталья

      Вот я так и думала, слушай я так потихоньку тоже в эксперта превращусь 🙄
      Женечка спасибо большое, что ты у меня есть!
      Спасибо тебе за все! 🙂

    3. Евгения Куварина автор

      Обращайся :)!

  15. irocez

    Также можно воспользоваться сервисом соломоно, где можно посмотреть все свои ссылки или воспользоваться программой Xenu Link Sleuth.

    Ответить
  16. Мозгунова Ирина

    Прочитав Вашу статью, поняла, сколько ещё работы предстоит над совершенствованием сайтов.
    Ведь я этот файл роботс тоже у кого-то готовым взяла, даже не вникая, что там означает каждая строчка. А оказывается….Иду проверять.

    Ответить
    1. Евгения Куварина автор

      Я тоже сначала так делала, знания ведь со временем приходят.

    2. Наталья

      Многие берут файл роботс уже готовым. Ведь когда начинаешь, еще не понимаешь, что должно быть и как. Да что там говорить, файл роботс вообще загадка, и каким он должен быть в идеале не знает никто 😐

    3. Евгения Куварина автор

      Наташ, полностью согласна, для меня он до сих пор все еще загадка, к тому же в интернете нет единого мнения, каким он должен быть на самом деле.

  17. Creeper

    Одной из наиболее актуальных проблем веб-мастеров сегодня является дублирование контента внутри сайта

    Ответить
  18. Наталья

    Ох, и намучилась я с этими дублями, впрочем как и многие. наверное 🙁

    Ответить
  19. Александр

    Женя, спасибо за статью. Но у меня по данному рецепту не получилось внести изменения в файл htaccess.
    Постоянно выскакивает ошибка 500. Александр Борисов также не смог помочь…

    И ещё вопрос. Какой используешь плагин для комментариев? И удалось ли избавиться от реплитукомов?

    Ответить
    1. Евгения Куварина автор

      Я обращалась к Сергею Зайцеву, он мне настроил комментарии с помощью кода. Replytocom постепенно исчезают

  20. Александр

    А как мне его найти?
    Женя, это код примерно как у А.Борисова? 🙂

    Ответить
    1. Евгения Куварина автор

      Да, думаю такой же, та как настраивал один и тот же человек, хотя для каждого шаблона нужны свои настройки, контакты Сергея можно найти на сайте irinazaytseva.ru или напишите мне по обратной связи и я все отправлю

  21. Нонна

    Здравствуйте. Я удаляла все дубли с сайта как описывал Борисов и вы, но что то они не уменьшаются когда в поиске смотрю. А еще мне хотелось бы узнать как избавиться от дублей картинок их у меня так же много.

    Ответить
    1. Евгения Куварина автор

      А у меня дубли уже в 2 раза уменьшились, это медленный процесс. В статье я и про картинки рассказываю

  22. Константин

    Здравствуйте, Евгения! Расскажите, пожалуйста подробнее про то, зачем у картинок везде ставить размер равный 0. В статье сказано, что это нужно делать, но не сказано зачем, точнее как этот прием работает и к какому результату проводит. В общем, я не уловил.

    Ответить
    1. Евгения Куварина автор

      Константин, Вы загружаете на хостинг 1 картинку, а wordpress создает несколько картинок разных размеров, тем самым занимается много места на хостинге, а также создаются дубли страниц. Чтобы этого не было и нужно поставить 0

    2. Марина Саморосенко

      Привет, Женя! Не всем подойдет проставить во всех пунктах «0».
      Например, моя тема в анонсах статей для отображения берет миниатюру 150х150. После проставления этих «ноликов», в анонсы берется основная прямоугольная картинка 700х450 и ужимается к размерам 150х150, не сохраняя пропорции. Т.е. был прямоугольник, а стал квадратик)) Картинка вытягивается! А у меня все-таки фотоблог и это уродство а нем совсем ни к чему. Лучше не советовать, не разобравшись полностью, т.к. Борисов тоже не царь и бог. Если он в платном курсе так рекомендовал, то это не значит, что так для всех будет правильно))

    3. Евгения Куварина автор

      Марина, я этим способом пользовалась еще за долго до изучения курса Борисова, так все проверяю на личном опыте, но согласна, что не всегда некоторые рекомендации подходят абсолютно всем, темы ведь разные и тут уж самому автору блогу решать использовать данный совет или нет

    4. Руслан

      Так Евгения же еще в статье сказала, что этот способ не подойдет если вы размещаете похожие записи с картинками =)
      Так что она не виновата — читайте внимательней.
      И конечно же, никто не царь и не бог, всё всегда нужно проверять

  23. Александр

    Многие ребята начали писать на форумах о том, что через какое-то время тот метод перестал работать и теперь у них в поиске опять куча дублей. не знаю на сколько это правда но и у меня они начали появляться

    Ответить
    1. Руслан

      Значит снова нужно искать решение.
      Кстати у меня пока дубли не появляются…тьфу тьфу тьфу =)

  24. Руслан

    По поводу картинок очень интересное решение поставить везде ноль.
    А за счет чего на хостинге появляются лишние картинки, которые нужно удалить? что-то я этого не понял.
    И еще вопрос: где в seolib находится проверка соплей в google?

    Ответить
    1. Евгения Куварина автор

      Руслан, картинки появляются, потому что wordpress создает из одной картинки сразу несколько разных размеров. В seolib в инструментах есть эксперсс анализ сайта, там и показывается сколько процентов ссылок в дополнительном индексе. У меня после принятых мер там 0%.