Дубли страниц в поисковой выдаче: откуда берутся, чем опасны, как убрать?

Дубли страниц в поисковой выдаче: откуда берутся, чем опасны, как убрать?

9 декабря 2020


Автор: Некстайп Веб-студия
Дубли – это страницы, содержащие одинаковый контент, но открывающиеся под разными URL-адресами. Иногда дубли создаются сознательно, но намного чаще это происходит автоматически, поэтому остается без должного внимания. А, между тем, дублированный контент может очень негативно сказываться на поисковом продвижении.

Фото 1: «Дубли страниц в поисковой выдаче: откуда берутся, чем опасны, как убрать?»

Как появляются дубли в поиске?
  1. Отсутствие базовых редиректов.
    Изначально каждая страница сайта доступна по адресу, начинающемуся с www., без данного префикса, а также с /index.html и /index.php в конце. После установки ssl-сертификата сайт также может быть одновременно доступен по http:// и https://. Все эти версии воспринимаются поисковыми системами как дубли.
  2. Поддомены.
    Если к сайту были добавлены поддомены, а контент на них не имеет отличий, они считаются версиями одного сайта.
  3. Товары, привязанные к нескольким разделам.
    Каталог, подкатегории в котором подогнаны под различные поисковые запросы, удобен для пользователей, и хорошо подходит для поискового продвижения. Но факт, что при такой системе страницы каждого товара, привязанного к 2 или более разделам, открываются под разными URL, нередко не учитывается. Такие страницы воспринимаются поисковыми системами как дубли.
  4. Параметры.
    Страницы, содержащие в адресе «/?», которые могут возникать в результате применения сортировки, фильтров, поиска по сайту и т.д. Они также воспринимаются роботами как дублированный контент.
Почему дубли – это плохо?
Причин несколько.
  • Во-первых, поисковые системы в целом негативно относятся к неуникальному контенту. Если дублей на вашем сайте много, он может ранжироваться на поиске низко, в том числе из-за них.
  • Во-вторых, находя несколько одинаковых страниц, роботы оставляют в индексе только одну из них. Если не прописаны правила для роботов – любую, которую посчитают нужной. Остальные «версии» перестают показываться в выдаче вообще.
  • В-третьих, для каждого сайта поисковой системой выделяется определенный краулинговый бюджет – число страниц, которое может быть просканировано за определенный промежуток времени. Краулинговый бюджет определяется востребованностью сайта для пользователей и доступностью сервиса. Но, в любом случае, он не бесконечен, а наличие дублей страниц заставляет его расходоваться впустую.
Как избавиться от дублей, или предотвратить их появление?
  1. Настроить базовые редиректы. Необходимо выбрать главное зеркало сайта, и поставить с остальных перенаправление на него.
  2. При создании поддоменов следить, чтобы контент на них не был идентичным.
  3. Настроить служебные файлы robots.txt и sitemap.xml. В robots.txt задаются рекомендации для обхода сайта роботами, а sitemap содержит пути, по которым осуществляется этот обход. Важно, чтобы эти файлы были настроены корректно, и согласованы между собой: например, в sitemap не должны присутствовать разделы, закрытые от индексации в robots, или ссылки на оставшееся на сайте содержимое демо-версии решения.
  4. Настроить канонические страницы (атрибут rel="canonical";). Канонические адреса позволяют указать, какой из дублей является приоритетным для сканирования. Установка canonical не означает, что остальные адреса проиндексированы не будут – роботы просто будут посещать их реже. Инструкция по настройке канонических URL для элементов инфоблока в Битрикс доступна по ссылке.
    Перечисленные действия необходимо производить сразу после запуска сайта или добавления поддоменов, но они будут полезны и давно работающему ресурсу. А если у вас нет времени или желания самостоятельно разбираться в поисковой оптимизации, вы всегда можете обратиться к нам.