Добрый день, уважаемые читатели! Сегодня мы поговорим об очень важном моменте в настройке блога: а именно удалении дублированного контента или дублей страниц и о правильной настройке блога, чтобы эти дубли больше не появлялись.
Я давно пыталась найти решение этой проблемы. Информации в Интернете много, но она однотипна и по большей части ошибочна.
Это я проверила на себе, так как использовала способы описанные в различных статьях, но от этого дублей меньше не становилось. Но благодаря одному блоггеру решение было найдено. Итак, обо всем по порядку.
Вы узнаете:
- что такое дубли страниц;
- как проверить блог на наличие дублей;
- как от них избавиться.
Что такое дубли страниц
Дублированный контент создается, когда одна и та же страница доступна по нескольким адресам.
Дубли могут создаваться за счет внешних и внутренних факторов.
- К внешним фактором относится — воровство контента. Когда кто-то скопировал Вашу статью, а она еще не успела проиндексироваться, то она становится дублем. Выход здесь один защищать свои статьи от копирования всеми возможными способами и ускорять их индексацию.
- Но дубли создает и Ваш движок WordPress. Это классная платформа для ведения блога, но и у нее есть недостатки.
Если вы перейдете в рубрику, где находится нужная вам статья, то увидите следующую ссылку:
А если будете искать статью с помощью меток или тегов, то увидите следующее:
А анонс на главной странице будет иметь следующий адрес:
Все эти ссылки создают дубли страниц. И это еще не все проблемы с дубликатами страниц.
Как найти дубли страниц
В этом вам помогут инструменты для Вебмастеров от Яндекса и Гугл. О них я уже упоминала в этой статье. И если вы еще не зарегистрировали в них свой блог, то очень советую это сделать.
В Яндексе выбираете раздел «Индексирование сайта» →»Страницы в поиске»:
И смотрите, какие ссылки находятся в индексе и нет ли дублей. У меня было около 50 дублирующих ссылок. О том, что с ними делать, вы узнаете чуть позже.
Также не забудьте проверить ссылки и в инструментах для вебмастеров Google:
Но если тут все в порядке, то это не значит, что дублей нет. Особенно это качается Гугл. У него кроме основного индекса есть еще и дополнительный (Supplemental Index или Сопли). И вот туда он отправляет очень много ссылок. Они не появляются в основной выдаче, но очень сильно мешают продвижению, так как Google может наложить фильтр за дублированный контент.
Чтобы проверить, есть ли у Вас дубли наберите в поисковой строке: site:domhozka.ru
Разумеется Вы указываете домен Вашего блога.
Смотрите, что получается у меня:
Найдено 1890 ссылок, хотя должно быть всего 130 не более. Это значит, что на блоге полно дублей. Перейдите на последнюю страницу и нажмите «Отобразить скрытые данные»:
Снова перейдите ближе к концу и Вы увидите эти дубли:
На скриншоте Вы видите дубли, которые создаются, когда пользователи отвечают на чей-то комментарий. И если у Вас на блоге происходит активное общение, то дубли могут разрастаться, как снежный ком.
О том, как удалить дубли replytocom я расскажу отдельно чуть дальше.
Также Вы можете проанализировать Ваш сайт с помощью сервиса seolib.ru (экспресс-анализ). Он покажет сколько процентов ссылок находится в дополнительном индексе. И если Вы увидите такую картину:
То это опять же говорит, о наличии дублей.
Если в ссылке присутствуют переменные: replytocom, feed, trackback, attachement, attachement, page, category, то знайте, что это дубли. Чтобы проверить сколько ссылок с определенной переменной есть у Вас, добавьте после названия сайта переменную, например, site:domhozka.ru replytocom и нажмите на показать скрытые результаты. И так с каждой переменной.
Как удалить дублированный контент
В блогосфере было принято закрывать дубли с помощью файла robots.txt. Этим способом пользуются 99% блоггеров и пользовалась и я.
Но это не решает проблему, а наоборот создает ее. Так как Google не реагирует на команды в роботсе, вернее реагирует не так, как нам надо. Он видит, что страница закрыта от индексации и так как не знает, что это за страница на всякий случай отправляет ее в дополнительный индекс. Теперь Вы поняли откуда берутся дубли? Все из-за неправильного robots.txt.
Нельзя закрывать дубли с помощью robots.txt. Конечно, это не означает, что теперь этот файл стал не нужным.
Нет для того, чтобы Ваш блог индексировался, он необходим, но в нем должно быть как можно меньше информации. Мой robots.txt вы можете посмотреть здесь. А дубли стоит закрывать с помощью других инструментов.
О которых я сейчас и расскажу.
Главное зеркало сайта
Определите главное зеркало сайта. Зеркала — это сайты, которые являются полными или частичными копиями, например domhozka.ru и www.domhozka.ru.
Поисковые системы определяют данные зеркала, а затем склеивают их и выбирают главное на свое усмотрение, если Вы не подсказали им, какой сайт Вы хотите сделать главным.
Для этого в файле robots прописывается директива: Host: domhozka.ru
Вы можете указать домен с www, если хотите сделать его главным зеркалом.
Далее Вы идете в инструменты Вебмастеров и указывает главное зеркало там. В Инструментах от Яндекса Вы выбираете:
Настройка индексирования → Главное зеркало:
В инструментах Гугл Вы нажимаете на шестеренку в правом верхнем углу и выбираете Настройки сайта:
Имейте в виду, что в роботсе и в инструментах должно быть указано одно и то же главное зеркало.
Кроме этого можно настроить редирект 301 в файле htaccess
Я использую следующий вариант редиректа с www. domhozka.ru на домен без www:
RewriteCond %{HTTP_HOST} ^www\.(.*) [NC] RewriteRule ^(.*)$ http://%1/$1 [R=301,L]
301 редирект
Наиболее эффективный способ, но он требует специальных знаний. Если Вы ими не обладаете, то лучше всего будет обратиться к специалисту. Этот способ хорош еще и тем, что он помогает избавиться уже от существующих дублей.
Суть редиректа в том, что с помощью него происходит переадресация со страницы дубля на оригинальную.
Канонический URL
Еще один вариант предупредить дубли, это указать ПС каноническую страницу, то есть страницу которая будет основной и которую нужно отправить в основной индекс
Для этого на странице следует прописать тег link с атрибутом rel=»canonical»
У меня это реализовано с помощью плагина Yoast WordPress Seo. Если Вы откроете код любой статьи, то увидите этот тег:
Каноническая страница предотвращает появление дублей, но не приводит к удалению уже существующих.
Дубли для рубрик и тегов Вы также можете удалить с помощью seo плагина. Заходите в Заголовки и метаданные → Таксономии и ставите галочку в строке Мета Robots в разделах Рубрики, Метки, Формат. Сохраняете изменения. Затем переходите во вкладку Остальное и отключаете Архивы автора и даты.
Дубли картинок
Теперь надо поработать над картинками. В Админ-панели WordPress зайдите в Настройки → Медиафайлы и везде поставьте 0. Это избавит Вас от дублей и сэкономит место на хостинге.
Этот способ подойдет не для всех. Сначала изучите, какие размеры картинок Вы используете на блоге. Например, если Вы выводите похожие записи с помощью миниатюр, то этот способ Вам не подойдет.
После вставки изображения в статью, удалите ссылку на нее здесь:
Эта ссылка позволяет открыть картинку в новом окне, но в большинстве случаев это необязательно. У меня на блоге я оставила ссылки только для фотографий о Марокко, чтобы их было удобнее смотреть при желании.
У остальных изображений я эту ссылку удалила, так как нет необходимости открывать на отдельной странице, тем самым создавая дублирование контента.
В новой версии WordPress эту ссылку можно удалить сразу после загрузки изображения. Просто проследите, чтобы в Настройках изображения в графе Ссылка стояло: нет.
Кроме этого стоит удалить ненужные картинки, которые накопились у Вас на хостинге. Сделать это очень легко с помощью плагина DNUI.
Но главную проблему представляют древовидные комментарии, так их больше всего.
Дубли Replytocom
Данные дубли создаются из-за кнопочки Ответить в комментариях. Как же от них избавиться?
- Отключить древовидные комментарии. Самый простой способ, но это затруднит общение с читателями. И возможно приведет к уменьшению их активности на блоге, а значит ухудшит поведенческие факторы. О ПФ читайте тут. Кстати, еще один важный момент в настройках комментариев никогда не ставьте галочку в графе Разбивать комментарии на страницы. Это опять же создаст дублированный контент.
- Удалить переменные replytocom с помощью плагина Seo by Yoast ( раздел Постоянные ссылки), но если у пользователя отключен Java-script, он не сможет ответить на комментарий.
- Но есть способ лучше и о нем рассказал Александр Борисов, кстати это и есть тот блоггер, который первым нашел решение для борьбы с дублями. Поэтому очень рекомендую прочитать его статью по борьбе с replytocom.
Надеюсь, статья была для Вас полезной и данная информация поможет улучшить позиции Вашего блога. У меня после применения этих знаний трафик на блоге вырос в 2 раза!
Мда… Как сложно жить, сказала одна смешная актриса. 😕 Спасибо, Женя. Тебе можно платные услуги предлагать по поиску на других блогах дублированного контента.
😎
Ален, я еще со своим не разобралась окончательно 🙂
Жень, если что, я первая в очереди на удаление дубляжа… 😀
Договорились 🙂
а у меня вот такая картинка в роботе:
Disallow: /wp-admin/
Disallow: /wp-includes/
видимо, я второй в очереди 🙂
Валерий, есть мнение, что чем меньше в роботсе прописано, тем лучше и все дубли стоит закрывать средствами движка, но как все закрыть только средствами движка я не знаю, поэтому и пользуюсь роботс. Стоит проверить, какие ссылки находятся в индексе и если нет ничего лишнего, то так и оставить
Да уш в своё время получался я с этими дублями, но сейчас вроде всё нормально.
Хотя меня пугает следующее: Загружено роботом 257-> Исключено роботом 112-> Документ запрещен в файле robots.tx 108
Зачем он их вообще загружает? ведь запрещено!
Он же их должен загрузить, чтобы понять, что с ними делать. Запрещено индексировать, но чтобы это понять робот должен сначала все просканировать
может оно и так, но зачем мне это показывать? лучше б зашел посмотрел и молчок если в роботе запрещено
Жень, если честно, то думала, что с роботом покончено(я с ним тоже много повозилась), ан нет похоже придется покопаться еще! 😐
Я в очередь вставать не буду, просто если помучаю тебя в комментариях 😛
Полезная информация. Сейчас сяду за проверку своего роботс.тхт.
Жень, мне конечно придется выявлять и удалять свои дубли, потому как действительно Яндекс их воспринимает как копированные, а я и думаю в чем же моя проблема!
Очень жаль, что сразу не вникла 😐
Женечка, что то я сразу не убрала слово categori из за этого много дублей оказывается. Ну да ладно , сделала сейчас.
А вот как убрать tag, если искать с помощью меток и тегов не знаю, подскажи пожалуйста, где поправить?
Наташ, tag нужно убирать с помощью robots, нужно там запретить индексировать ссылки с tag/ Там должна быть строка: Disallow: /tag/
Жень, чтобы долго не мучиться, я взяла твой роботс, удалила категории,удалила ссылки с картинок.
А как быть с уже имеющимися дублями, они удалятся или нужно с ними что то делать, не пойму, Жень? 😮
Наташ, они постепенно удалятся, если ты их закрыла в роботсе, только понадобится время.
По роботсу я тебе на почту написала, что подправить надо
Спасибо Женя, все сделала, как ты мне написала
Жень в инструментах для вэбмастеров Гугл мне еще выдали, что Файлы Sitemap отсутствуют, где мне их можно добавить?
Наташ, ты когда в Интсрументах находишься на главной нажми на файлы sitemap (третий столбик), у тебя справа вверху появится надпись проверить/подтвердить sitemap? нажимаешь и указываешь адрес карты, сначала проверяешь, а потом уже добавляешь.
Хорошо Жень, попробую, спасибо за подсказку 🙄
Жень, я тут проверяла повторно свою статью на адвего, и он мне выдал около 5 ссылок, где мой текст, и все ведут на мой сайт. Что то я раньше такого не замечала. Скажи пожалуйста, это тоже дубли страниц? 😮
Наташ, а ты посмотрела что за ссылки? Надо их увидеть, чтобы понять
Жень ссылки с моего блога.
Не могу просто понять, откуда они и есть ли это дубли страниц.
Если сможешь, объясни Жень, если ты с этим конечно сталкивалась.
Наташ, я с таким не сталкивалась, но дублей я тут не вижу, в адвего есть функция исключить домен, возможно, стоить прописать собственный домен, чтобы он искал только на других блогах
Жень, у меня включены древовидные комментарии, могут из за них быть дубли страниц? Может лучше их отключить, что скажешь? 😮
Наташ, могут, это ссылки с replytocom на конце, проверь есть ли они, я не отключала, а только запретила их в роботс, а для гугла в инструментах вебмастера
Жень, а может просто их все таки отключить? Так проще по моему будет, если из за них могут быть дубли. Или эти древовидные комментарии для чего то нужны?
Наташ, если ты их отключишь, то нельзя будет отвечать на комментарий, надо будет писать новый, а это не очень удобно для читателей.
Да Жень, согласна, неудобно. И еще говоря о комментариях: когда оставляют новый коммент, он оказывается почти посередине, почему то.
Может я , копаясь, что то не так сделала?
Замучилась я с этими роботами и прочими! В комментариях что то бардак какой то стал- непонятно из за чего. 😮
Наташ, роботс тут ни при чем, он только указывает поисковику, что закрывать от индексации, а что нет, а на остальное не влияет. Я посмотрела, у тебя вроде все нормально с комментариями
Жень, скажи пожалуйста, у меня в роботсе прописано такое:
User-agent: Mediapartners-Google
Disallow: /yandex-direct
Это как я понимаю для тех, у кого реклама от Гугл и Яндекс директ.
А у меня то этого нет, может мне их нужно исключить? Или я что то не так понимаю..
Ты меня извини пожалуйста, нагрузила тебя столькими вопросами, но разбираюсь сейчас с сайтом, так сказать, порядок навожу 🙂
Твои ответы для меня очень важны!
Да ничего, Наташ, задавай. Приятно быть а роли эксперта :). Да, все правильно, это для рекламы, так что эти строчки можно удалить спокойно.
Вот я так и думала, слушай я так потихоньку тоже в эксперта превращусь 🙄
Женечка спасибо большое, что ты у меня есть!
Спасибо тебе за все! 🙂
Обращайся :)!
Также можно воспользоваться сервисом соломоно, где можно посмотреть все свои ссылки или воспользоваться программой Xenu Link Sleuth.
Прочитав Вашу статью, поняла, сколько ещё работы предстоит над совершенствованием сайтов.
Ведь я этот файл роботс тоже у кого-то готовым взяла, даже не вникая, что там означает каждая строчка. А оказывается….Иду проверять.
Я тоже сначала так делала, знания ведь со временем приходят.
Многие берут файл роботс уже готовым. Ведь когда начинаешь, еще не понимаешь, что должно быть и как. Да что там говорить, файл роботс вообще загадка, и каким он должен быть в идеале не знает никто 😐
Наташ, полностью согласна, для меня он до сих пор все еще загадка, к тому же в интернете нет единого мнения, каким он должен быть на самом деле.
Одной из наиболее актуальных проблем веб-мастеров сегодня является дублирование контента внутри сайта
Ох, и намучилась я с этими дублями, впрочем как и многие. наверное 🙁
Женя, спасибо за статью. Но у меня по данному рецепту не получилось внести изменения в файл htaccess.
Постоянно выскакивает ошибка 500. Александр Борисов также не смог помочь…
И ещё вопрос. Какой используешь плагин для комментариев? И удалось ли избавиться от реплитукомов?
Я обращалась к Сергею Зайцеву, он мне настроил комментарии с помощью кода. Replytocom постепенно исчезают
А как мне его найти?
Женя, это код примерно как у А.Борисова? 🙂
Да, думаю такой же, та как настраивал один и тот же человек, хотя для каждого шаблона нужны свои настройки, контакты Сергея можно найти на сайте irinazaytseva.ru или напишите мне по обратной связи и я все отправлю
Здравствуйте. Я удаляла все дубли с сайта как описывал Борисов и вы, но что то они не уменьшаются когда в поиске смотрю. А еще мне хотелось бы узнать как избавиться от дублей картинок их у меня так же много.
А у меня дубли уже в 2 раза уменьшились, это медленный процесс. В статье я и про картинки рассказываю
Здравствуйте, Евгения! Расскажите, пожалуйста подробнее про то, зачем у картинок везде ставить размер равный 0. В статье сказано, что это нужно делать, но не сказано зачем, точнее как этот прием работает и к какому результату проводит. В общем, я не уловил.
Константин, Вы загружаете на хостинг 1 картинку, а wordpress создает несколько картинок разных размеров, тем самым занимается много места на хостинге, а также создаются дубли страниц. Чтобы этого не было и нужно поставить 0
Привет, Женя! Не всем подойдет проставить во всех пунктах «0».
Например, моя тема в анонсах статей для отображения берет миниатюру 150х150. После проставления этих «ноликов», в анонсы берется основная прямоугольная картинка 700х450 и ужимается к размерам 150х150, не сохраняя пропорции. Т.е. был прямоугольник, а стал квадратик)) Картинка вытягивается! А у меня все-таки фотоблог и это уродство а нем совсем ни к чему. Лучше не советовать, не разобравшись полностью, т.к. Борисов тоже не царь и бог. Если он в платном курсе так рекомендовал, то это не значит, что так для всех будет правильно))
Марина, я этим способом пользовалась еще за долго до изучения курса Борисова, так все проверяю на личном опыте, но согласна, что не всегда некоторые рекомендации подходят абсолютно всем, темы ведь разные и тут уж самому автору блогу решать использовать данный совет или нет
Так Евгения же еще в статье сказала, что этот способ не подойдет если вы размещаете похожие записи с картинками =)
Так что она не виновата — читайте внимательней.
И конечно же, никто не царь и не бог, всё всегда нужно проверять
Многие ребята начали писать на форумах о том, что через какое-то время тот метод перестал работать и теперь у них в поиске опять куча дублей. не знаю на сколько это правда но и у меня они начали появляться
Значит снова нужно искать решение.
Кстати у меня пока дубли не появляются…тьфу тьфу тьфу =)
По поводу картинок очень интересное решение поставить везде ноль.
А за счет чего на хостинге появляются лишние картинки, которые нужно удалить? что-то я этого не понял.
И еще вопрос: где в seolib находится проверка соплей в google?
Руслан, картинки появляются, потому что wordpress создает из одной картинки сразу несколько разных размеров. В seolib в инструментах есть эксперсс анализ сайта, там и показывается сколько процентов ссылок в дополнительном индексе. У меня после принятых мер там 0%.